Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas
Alternative Title:
Morphologically annotated corpus of contemporary Lithuanian language
In the Journal:
Kalbų studijos [Studies About Languages]. 2007, Nr. 11, p. 30-35
Notes:
LDB Open.
Keywords:
LT
Daugiareikšmiškumas; Morfologinis anotavimas; Morfologinis vienareikšmiškumas; Morfologinė analizė; Statistinis morfologinis vienareikšminimas; Tekstynas.
EN
Ambiguity; Corpus; Morphological analysis; Morphological analysis of the ambiguity; Morphological annotation; Morphological disambiguation; Polysemy; Statistical morphological disambiguation; The statistical morphological disambiguation.
Summary / Abstract:

LTStraipsnyje pristatomi didelio lietuvių kalbos tekstyno automatinio morfologinio vienareikšminimo tyrimai ir anotavimo rezultatai. Didėjant informacinių technologijų plėtrai, spartėjant kalbos kompiuterizavimo darbams, iškilo būtinybė kurti didelius anotuotus tekstynus tam, kad būtų galima pasinaudoti jų duomenimis pereinant į aukštesnius kalbos kompiuterizavimo lygmenis (pvz., automatinę sintaksinę ir semantinę analizę, mašininį vertimą). Remiantis statistiniais metodais, pavyko sukurti lietuvių kalbos morfologinio anotavimo priemonę, kurios vienareikšminimo tikslumas siekia 94 proc., ir taip išspręsti didelį lietuvių kalbos morfologinį daugiareikšmiškumą. Pateikiami statistiniai duomenys apie kalbos dalių pasiskirstymą anotuotame tekstyne, dažniausias žodžių formas ir dažniausias lemas, išvardintos dažniausios kaitomos kalbos dalys, išrinktos iš morfologiškai anotuoto „Dabartinės lietuvių kalbos tekstyno“. Naudojant Paslėptuosius Markovo modelius buvo gautas 94 proc. visiško morfologinio anotavimo tikslumas, kuris atitinka kitoms kalboms taikomų modelių tikslumą mokymui naudojant 1 mln. morfologiškai anotuotą tekstyną. Taip pat buvo pasiektas 99 proc. tikslumas nustatant antraštines lietuvių kalbos žodžių formas (lemas). Neatpažintų žodžių vartosenos kiekis sudaro 5,6 proc. (apie 800 tūkst. žodžių formų). Norint automatiškai sėkmingai išanalizuoti šias žodžių formas reikia automatinės morfologinės analizės priemonės žodyną papildyti 100-150 tūkst. naujų antraštinių žodžių. 1 mln. morfologiškai anotuoto tekstyno užtenka nagrinėjant pagrindinius lietuvių kalbos dėsningumus.

ENResearch of morphological disambiguation and morphological annotation of the 100 million word Lithuanian corpus are presented in the article. Statistical methods enabled to develop the automatic tool of morphological annotation for Lithuanian. The method of Hidden Markov models for morphological annotation has allowed achieving the precision of 94%, which is comparable to the precision achieved for other languages, when the 1 mln. word training corpus is used. The precision of 99% is reached for establishing headwords of Lithuanian words. The precision measure estimates only the process of disambiguation, while unrecognised words are not included in the precision test. The amount of unrecognised words makes up 5,6% of all used word-forms (more than 800,000 different word-forms). 1 million word morphological corpus is enough for the analysis of morphological phenomena in the Lithuanian language, as distribution of parts of speech in the whole 100 million word corpus does not differ significantly from the distribution in the training corpus. [text from author]

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/17493
Updated:
2020-09-24 18:57:23
Metrics:
Views: 42    Downloads: 4
Export: