Corpus-driven analysis of multi-word terms including the word ‘risk’ in English, French and Lithuanian

Smirnova, Oksana; Rackevičienė, Sigita

Corpus-driven analysis of multi-word terms including the word ‘risk’ in English, French and Lithuanian

Direct Link:

©InC – Lituanistika

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Anglų kalba / English

Title:

Corpus-driven analysis of multi-word terms including the word ‘risk’ in English, French and Lithuanian

Alternative Title:

Anglų, prancūzų ir lietuvių kalbų daugiažodžių terminų su žodžiu „rizika“ analizė tekstynų lingvistikos metodais

Authors:

In the Journal:

Terminologija, 2018, 25, 86-106

Subject terms:

Germanų kalbos / Germanic languages; Terminija / Terminology.

Summary / Abstract:

LTStraipsnyje pristatomi deskriptyviosios terminologijos tyrimo principai bei empirinis daugiažodžių terminų su žodžiu rizika tyrimas, kurio tikslas – taikant tekstynų lingvistikos metodus, surinkti terminus iš ES finansų srities dokumentų tekstynų ir atlikti jų formaliosios sandaros analizę. Tyrimo tikslams buvo sukaupti keturi tekstynai: finansų srities dokumentų anglų kalba (802 933 žodžiai), prancūzų kalba (940 655 žodžiai) ir lietuvių kalba (639 279 žodžiai) bei lygiagretusis anglų–prancūzų–lietuvių kalbų tekstynas. Iš tekstynų surinkta 210 terminų, kuriuose žodis rizika eina pagrindiniu dėmeniu: 70 angliškų terminų ir po tiek pat jų atitikmenų prancūzų ir lietuvių kalbomis. Žodžio rizika pasirinkimą lėmė tai, kad šis žodis buvo dažniausias visų trijų kalbų tekstynuose. Terminų atpažinimui ir surinkimui buvo naudojamos dvi kompiuterinės programos – AntConc ir AntPConc. Dirbta tokiais etapais: • dažniausių žodžių, galinčių būti terminų branduoliu, angliškame, prancūziškame ir lietuviškame tekstynuose nustatymas ir vieno iš jų (žodžio rizika) atrinkimas tolesnei analizei; • žodžio rizika kolokacijų ir daiktavardinių junginių su pagrindiniu dėmeniu rizika ir jo kairiaisiais bei dešiniaisiais kolokatais nustatymas angliškame tekstyne; • daiktavardinių junginių, laikytinų daugiažodžiais terminais, atrinkimas; • atrinktų angliškų terminų prancūziškų ir lietuviškų atitikmenų nustatymas. Pritaikyta metodologija leido rezultatyviai surinkti daugiažodžius terminus iš daugiakalbių tekstynų. Tai duoda pagrindą teigti, kad ji gali būti taikoma terminų kaupimui bei tyrimams.Surinktų terminų formaliosios sandaros analizė atskleidė keletą svarbių terminų darybos tendencijų tiriamose kalbose: • vyraujantis terminų tipas pagal dėmenų skaičių visose trijose tiriamose kalbose yra dvižodžiai terminai; tai rodo, kad ES terminų kūrėjai laikosi kalbos ekonomijos principo ir stengiasi kurti kuo trumpesnius daugiažodžius terminus; • tik keletas angliškų ir prancūziškų terminų turi daugiau kaip 2–3 dėmenis; tuo tarpu lietuviški terminai, susidedantys iš 4 ir daugiau dėmenų, sudaro beveik ketvirtadalį surinktų terminų; • anglų ir lietuvių kalbų terminų darybos modeliuose vyrauja prepozicinė ir postpozicinė modifikacija, o prancūzų kalbos – postpozicinė modifikacija; • daugumos anglų ir lietuvių kalbų terminų priklausomieji dėmenys yra daiktavardžiai ir būdvardžiai, o prancūzų kalboje – prielinksninės konstrukcijos. Formaliosios sandaros analizės rezultatai suteikia informacijos, kuri gali būti naudinga terminų kūrėjams ir vertėjams. Tyrimo metu nustatyti sintaksinių struktūrų modeliai gali būti taikomi, kuriant kompiuterinius lingvistinius metodus automatiniam terminų atpažinimui be iš anksto pasirinktų raktinių žodžių.

ENThe aim of the research is to apply the methodology of corpus linguistics for extraction and formal structure analysis of financial multi-word terms including the word ‘risk’ as the head noun in English, French and Lithuanian. In order to achieve this aim, the following objectives were set: 1) to analyse the principles of descriptive corpus driven terminology including the methods of collocational-colligational analyses; 2) to compile corpora of the EU legal acts of financial domain in three languages (English, French and Lithuanian) and select the software appropriate for the corpus-driven research; 3) to extract the most frequent words from the corpora in the investigated languages and select the most frequent keyword (noun) for the further analysis; 4) to carry out collocational analysis of the selected keyword in the English corpus and extract multi-word terms including the selected keyword as the semantic and syntactic head of terms from the English corpus material; 5) to establish French and Lithuanian equivalents of the selected English terms in the parallel English-French-Lithuanian corpus; 6) to perform formal structure quantitative analysis of the selected multi-word terms and determine which modification patterns and syntactic structures of the terms are predominant in the investigated languages. Data and scope of the research. For the purposes of the research, four corpora of the EU documents of financial domain were compiled: three monolingual corpora (English, French and Lithuanian) and one parallel corpus (EN-FR-LT). The sizes of the corpora are as follows: EN 802 933 words, FR 940 655 words, LT 639 279 words. In total, 210 financial terms including the word ‘risk’ as the head noun were extracted from the corpora: 70 English terms and their equivalents in French and Lithuanian.The choice of word ‘risk’ was determined by the corpus data which revealed that this word was the most frequent in the selected EU documents.

ISSN:

1392-267X

Subject area:

Kalbotyra / Linguistics

Related Publications:

Automatinis terminų atpažinimas ir apdorojimas. Kaunas, 2005. 156 p. 1 kompakt. diskas.
Corpus-based analysis of semi-automatically extracted artificial intelligence-related terminology. Journal of language and cultural education 2021, 9, 1, 30-38.
Formation of terminology of constitutional law in English, Lithuanian and Russian. Vilnius : Mykolo Romerio universitetas, 2016. 215 p.
Lietuvių kalbos terminų automatinis atpažinimas ir apibrėžimas. Kaunas : Vytauto Didžiojo universitetas, 2015. 199 p.
Terminografija ir tekstynas. Terminologija 2000, 6, 5-22.
Terminology in media discourse: a case study of terms denoting phobia types in English, Lithuanian and Norwegian news media sites. Research in language 2020, 18, 4, 359-380.

Permalink:

https://www.lituanistika.lt/content/80817

Updated:

2026-02-25 13:51:01

Metrics:

Views: 133 Downloads: 5

Export:

Choose type:

Download

User ID:
User Password: