Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Rimkutė, Erika; Daudaravičius, Vidas

Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Direct Link:

Open Access (CC) BY 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Lietuvių kalba / Lithuanian

Title:

Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas

Alternative Title:

Morphologically annotated corpus of contemporary Lithuanian language

Authors:

In the Journal:

Kalbų studijos Studies About Languages, 2007, 11, 30-35

Subject terms:

Morfologija / Morphology.

Summary / Abstract:

LTStraipsnyje pristatomi didelio lietuvių kalbos tekstyno automatinio morfologinio vienareikšminimo tyrimai ir anotavimo rezultatai. Didėjant informacinių technologijų plėtrai, spartėjant kalbos kompiuterizavimo darbams, iškilo būtinybė kurti didelius anotuotus tekstynus tam, kad būtų galima pasinaudoti jų duomenimis pereinant į aukštesnius kalbos kompiuterizavimo lygmenis (pvz., automatinę sintaksinę ir semantinę analizę, mašininį vertimą). Remiantis statistiniais metodais, pavyko sukurti lietuvių kalbos morfologinio anotavimo priemonę, kurios vienareikšminimo tikslumas siekia 94 proc., ir taip išspręsti didelį lietuvių kalbos morfologinį daugiareikšmiškumą. Pateikiami statistiniai duomenys apie kalbos dalių pasiskirstymą anotuotame tekstyne, dažniausias žodžių formas ir dažniausias lemas, išvardintos dažniausios kaitomos kalbos dalys, išrinktos iš morfologiškai anotuoto „Dabartinės lietuvių kalbos tekstyno“. Naudojant Paslėptuosius Markovo modelius buvo gautas 94 proc. visiško morfologinio anotavimo tikslumas, kuris atitinka kitoms kalboms taikomų modelių tikslumą mokymui naudojant 1 mln. morfologiškai anotuotą tekstyną. Taip pat buvo pasiektas 99 proc. tikslumas nustatant antraštines lietuvių kalbos žodžių formas (lemas). Neatpažintų žodžių vartosenos kiekis sudaro 5,6 proc. (apie 800 tūkst. žodžių formų). Norint automatiškai sėkmingai išanalizuoti šias žodžių formas reikia automatinės morfologinės analizės priemonės žodyną papildyti 100-150 tūkst. naujų antraštinių žodžių. 1 mln. morfologiškai anotuoto tekstyno užtenka nagrinėjant pagrindinius lietuvių kalbos dėsningumus.

ENResearch of morphological disambiguation and morphological annotation of the 100 million word Lithuanian corpus are presented in the article. Statistical methods enabled to develop the automatic tool of morphological annotation for Lithuanian. The method of Hidden Markov models for morphological annotation has allowed achieving the precision of 94%, which is comparable to the precision achieved for other languages, when the 1 mln. word training corpus is used. The precision of 99% is reached for establishing headwords of Lithuanian words. The precision measure estimates only the process of disambiguation, while unrecognised words are not included in the precision test. The amount of unrecognised words makes up 5,6% of all used word-forms (more than 800,000 different word-forms). 1 million word morphological corpus is enough for the analysis of morphological phenomena in the Lithuanian language, as distribution of parts of speech in the whole 100 million word corpus does not differ significantly from the distribution in the training corpus.

ISSN:

1648-2824; 2029-7203

Subject area:

Kalbotyra / Linguistics

Related Publications:

A Comparison of approaches for sentiment classification on Lithuanian internet comments. Proceedings of the 4th biennial international workshop on Balto-Slavic natural language processing. Stroudsburg (PA): Association for Computational Linguistics, 2013. P. 2-11.
Corpus of contemporary Lithuanian language - the standardised way. Human language technologies - the Baltic perspective: proceedings of the fourth International Conference Baltic HLT 2010. Amsterdam: IOS Press, 2010. P. 154-160.
Experiments on Lithuanian term extraction. Proceedings from 18th Nordic Conference of Computational Linguistics, NODALIDA 2011, Riga, Latvia. Riga: Northern European Association for LanguageTechnology (NEALT), 2011. P. 82-89.
Grožinės literatūros sakinių sudėtingumo analizė. Taikomieji tyrimai studijose ir praktikoje 2015, 11, 134-139.
Improving topic classification for highly inflective languages. Proceedings of COLING 2012: technical papers. Bombay: Indian Institute of Technology, 2012. P. 1393-1410.
Learner corpus annotation in Latvia and Lithuania. Darnioji daugiakalbystė 2015, 7, 145-159.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Lietuviškų tekstų stilių palyginimas remiantis universalių kiekybinių charakteristikų statistine analize. Lietuvos matematikos rinkinys 2010, 51, 307-312.
Lietuvių kalbos dvižodžių junginių morfologinių ir sintaksinių ypatybių sąsajos. Darbai ir dienos 2015, 64, 115-131.
Lietuvių kalbos leksemų morfologinis anotavimas: ypatumai ir sunkumai. Kalbų studijos 2009, 15, 63-70.
Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne. Kaunas, 2006. 203 p.
Morfologiškai daugiareikšmiai prieveiksmiai ir prielinksniai: teorinės ir praktinės skirties problemos.. Taikomoji kalbotyra 2025, 22, 176-197.
Morfologiškai daugiareikšmių formų atsiradimo priežastys. Bendrinė kalba 2023, 96, 107-137.
Naujų lietuvių kalbos anotuotų tekstynų rengimas: sandaros aspektai.. Kalbų studijos 2025, 46, 119-135.
Tekstynais paremti vertimų kalbos tyrimai ir šaltiniai. Kalbų studijos 2017, 30, 42-55.
Tekstų nehomogeniškumo tyrimas naudojant žymeklius. Lietuvos statistikos darbai 2015, 54, 1, 92-100.
The Morphologically annotated Lithuanian Corpus. Second Baltic Conference on Human Language Technologies: Proceedings: April 4-5, 2005, Talinn, Estonia. Tallinn: Institute of Cybernetics, 2005. P. 365-370.

Permalink:

https://www.lituanistika.lt/content/17493

Updated:

2026-02-25 13:45:07

Metrics:

Views: 292 Downloads: 24

Export:

Choose type:

Download

User ID:
User Password: