Automatizuotas arbitraliųjų kolokacijų atpažinimas: būdvardžių ir daiktavardžių kolokacijos

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Automatizuotas arbitraliųjų kolokacijų atpažinimas: būdvardžių ir daiktavardžių kolokacijos
Alternative Title:
Automatic recognition of arbitrary adjective-noun collocations
In the Journal:
Kalbų studijos [Studies About Languages]. 2021, Nr. 39, p. 71-84
Keywords:
LT
Sinonimai / Synonyms; Žodžių jungimas. Sakiniai. Sakinio dalys / Word phrases. Sentences. Sentence parts.
Summary / Abstract:

LTStraipsnyje analizuojamas vienas kolokacijų tipas – arbitraliosios kolokacijos. Jos laikomos nemotyvuotomis (tuo skiriasi nuo kito kolokacijų tipo – trivialiųjų, arba motyvuotųjų, kolokacijų, pvz.: graži diena, naujas tyrimas), joms būdingas ribotas leksinis junglumas: pagal panašią reikšmę teoriškai galima rinktis daugiau negu vieną žodį, bet linkstama vartoti būtent kurį nors vieną, pvz., platus akiratis, bet ne didelis akiratis, stipri sveikata, bet ne galinga sveikata. Analizuotos iš „Lietuvių kalbos pastoviųjų žodžių junginių duomenų bazės“ atrinktos visos kolokacijos, sudarytos iš būdvardžių ir daiktavardžių (apie 5000 junginių). Nustatyta, kad iš jų apie 650 yra arbitraliosios kolokacijos. Atrenkant šias kolokacijas, taikytas sinonimų pakeičiamumo testas: jeigu kolokacijos būdvardiškasis dėmuo (būdvardis ir būdvardiškai vartojamas dalyvis) nėra pakeičiamas kitu artimos reikšmės sinonimu, tokia kolokacija laikoma arbitraliąja. Šis arbitraliųjų kolokacijų atrankos procesas buvo automatizuotas: automatiškai atrenkant artimus būdvardžių sinonimus junginiuose su daiktavardžiais, pritaikytas žodžių vektorių modelis. Automatiškai būdvardžiai ir dalyviai sugrupuoti į maždaug 800 vektorių eilučių. Straipsnyje aprašyta, kaip vyko duomenų analizė, vertinimas ir tikslinimas, kokios kolokacijos ir kiek jų pripažintos arbitraliosiomis naudojant šį metodą. [Iš leidinio]Reikšminiai žodžiai: Kolokacijos; Tekstynai; Kompiuterinė lingvistika; Sinonimai; Junglumas; Būdvardžiai; Synonyms; Daiktavardžiai; Nouns; Adjectives; Combinability; Computer linguistics; Corpus; Collocation.

ENThis article focuses on arbitrary collocations – a particular type of collocations which are characterized by unmotivated relations between the constituents (differently from trivial or motivated collocations as, for example, a beautiful day, new research). Typically, arbitrary collocations have a certain degree of lexical restrictedness, i.e., although there may be several close synonyms, a particular one is preferred in a certain word combination, for example, broad/wide outlook vs. big outlook; strong health vs. powerful health. As a result of the analysis of 5000 adjective-noun collocations retrieved from the “Database of Lithuanian Multiword Expressions”, approximately 650 arbitrary collocations were identified using the synonym substitution test: if the adjectival component of the collocation (adjective or participle) could not be replaced by a close synonym, the collocation was considered arbitrary. The methods of computational linguistics, or Word Embedding Approach in particular, were used to automatically retrieve close synonyms of adjectives in adjective-noun collocations. Nouns and participles were automatically grouped into approximately 800 vector strings. The article describes in detail the steps in data processing and analysis as well as arbitrary collocation identification criteria and methods by using the Global Vector (GloVe) model. [From the publication]

DOI:
10.5755/j01.sal.1.39.29193
ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/95188
Updated:
2022-06-05 21:03:59
Metrics:
Views: 22
Export: