Automatinės morfologinės analizės metu išryškėjusios problemos

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Automatinės morfologinės analizės metu išryškėjusios problemos
Alternative Title:
Problems of the automatic morphological analysis
In the Journal:
Žmogus kalbos erdvėje. 2003, 3, p. 633-645
Keywords:
LT
Antraštinis žodis (lema); Antraštinis žodis(lema); Automatinė morfologinė analizė; Morfologinis daugiareikšmiškumas; Morfologinės pažymos; Tekstynas; Vienareikšminimas.
EN
Automatic morphological analysis; Corpus; Headline word (lemma); Headline word (lhema); Monosemy; Polysemy.
Summary / Abstract:

LTStraipsnyje pristatoma automatinė morfologinė lietuvių kalbos analizė ir automatiniu būdu sulemuotas bei morfologiškai anotuotas 1 mln. žodžių tekstynėlis. Tam naudojama kompiuterinė programa „Lemuoklis“, automatiškai nustatanti rašytinės žodžio formos antraštinį pavidalą ir galimas tos formos morfologines pažymas. Nagrinėjant Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre sudarinėjamą automatiškai anotuotą tekstyną, išryškėjo didelis morfologinis daugiareikšmiškumas (apie 40 proc. visų formų yra morfologiškai daugiareikšmės). Lingvistas, norėdamas vienareikšminti tokias formas, dažnai susiduria su problema, kurią formą palikti. Paaiškėjo, kad nėra aiški nekaitomų žodelių klasifikacija, ne visada aiškiai nustatomos tarnybinių kalbos dalių ribos. Iškilo klausimas, kaip skirti visiškai sutampančias kaitomas ir nekaitomas kalbos dalis, kokios morfologinės kategorijos būdingos vienoms ar kitoms kalbos dalims, kaip galima vienareikšminti morfologiškai daugiareikšmes formas bei žodžius. [Iš leidinio]

ENThe article deals with the automatically tagged corpus of the Lithuanian language. The corpus with morphological tags has shown a high level degree ambiguity of the language: about 40 percent of word forms are ambiguous. The corpus linguistics has directed attention to such issues, which have not been analysed using methods of traditional linguistics. The morphological ambiguity of language has become obvious only in this automatically tagged corpus. The computational program „Lemuoklis“, created by V. Zinkevičius, can define lemmas and morphological categories of word forms. The morphological ambiguity has appeared only in texts, which were processed by this program. It is very important for automatic morphological analysis to define clearly parts of speech because the accuracy of such analysis can help to avoid morphological ambiguity. But often it is difficult to choose the right form even for the human tagger, as dictionaries and grammars do not agree about how to define parts of speech and some other morphological categories. Some problematic aspects of the Lithuanian morphology are analysed in this article. Very often it is difficult to decide which part of speech a non-inflective word belongs to, what the boundaries of some words are, how one could separate some ambiguous inflective and noninlective words, what morphological categories some parts of speech have. [From the publication]

ISBN:
9986196116
Related Publications:
Morfologinių samplaikų atpažinimas ir klasifikavimas / Erika Rimkutė, Giedrė Jarašiūnaitė, Petr Homola. Lituanistica. 2005, Nr. 2, p. 58-75.
Permalink:
https://www.lituanistika.lt/content/61296
Updated:
2018-12-17 11:19:50
Metrics:
Views: 45    Downloads: 5
Export: