Lemmatisation and collocational analysis of Lithuanian nouns

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Anglų kalba / English
Title:
Lemmatisation and collocational analysis of Lithuanian nouns
In the Book:
Meaningful texts . 2005, P. 107-114
Keywords:
LT
Tekstynų lingvistika; Lematizavimas; Lolokacija; Daiktavardis; Linksnis
Summary / Abstract:

LTStraipsnyje analizuojamas aktualus tekstynų lingvistikos analizės metodas – lemavimas. Nors tekstynų lingvistikoje lemavimas yra įprastas ir dažnai naudojamas leksinės informacijos apibendrinimo metodas, straipsnyje teigiama, kad lemavimas yra pakankamai sudėtingas ir subjektyvus procesas, kurio metu yra įtakojami leksinės analizės rezultatai. Lemavimas yra ypač aktualus lietuvių kalbai, kur, pavyzdžiui, daiktavardis turi 14 skirtingų vieno žodžio formų ir todėl lietuvių kalboje lemavimo taikymas gali atrodyti kaip panacėja. Pritaikius statistinį Pirsono koreliacijos koeficientą ir kitus kolokatų dažninių charakteristikų lyginimo metodus, darbe įrodoma, kad kai lietuvių kalboje analizuojami daiktavardžio visos lemos kolokatai, tai analizės rezultatai atspindi dažniausiųjų linksnių (pvz., vienaskaitos Vardininko, vienaskaitos Kilmininko ir vienaskaitos Galininko) kolokatus , tuo tarpu retesnių linksnių (pvz., daugiskaitos Vardininko, daugiskaitos Kilmininko ir daugiskaitos Galininko) kolokatai nėra atspindimi. [Iš leidinio]

ENThe article analyses lemmatisation, a relevant method of corpus linguistics analysis. Although lemmatisation is a common and frequently used method of generalisation of lexical information, it is stated in the article that lemmatisation is a fairly complex and subjective process during which the results of lexical analysis is affected. Lemmatisation is especially relevant to the Lithuanian language in which, e.g., the noun has 14 different forms of one word and, therefore, the application of lemmatisation in the Lithuanian language may seem like a panacea. Applying statistical Pearson correlation coefficients and other comparative methods of iterative characteristics of collocated words, it is proved in the work that when in the Lithuanian language all collocated words of the whole noun’s lemma are analysed, then the analysis reflects the collocated words of the most frequent cases (e.g., singular nominative, singular genitive and singular accusative), whereas the collocated words of rare cases (e.g., plural nominative, plural genitive and plural accusative) are not reflected.

ISBN:
0-8264-7490-X
Permalink:
https://www.lituanistika.lt/content/64
Updated:
2020-07-28 20:26:24
Metrics:
Views: 27