The Morphologically annotated Lithuanian Corpus

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Anglų kalba / English
Title:
The Morphologically annotated Lithuanian Corpus
Keywords:
LT
Tekstyno sudarymas; Morfologinė anotacija; Žymų rinkiniai; Mofologinio daugiareikšmiškumo pašalinimas
EN
Corpus compilation; Morphological annotation; Tag sets; Morphological disambiguation
Summary / Abstract:

LTStraipsnyje pristatytas VDU Kompiuterinės lingvistikos centre parengtas morfologiškai anotuotas tekstynas, sudarytas iš 1 mln. žodžių. Aprašytas morfologiškai anotuoto tekstyno rengimas, tvarkymo procesas, naudota automatinės morfologinės analizės programa, teksto anotavimo etapai; pateikta tekstyno žanrinė sudėtis, naudojamos kalbinės ir nekalbinės pažymos, statistiniai duomenys apie tekstyną sudarančius žodžius. Šis tekstynas palygintas su kitais panašaus pobūdžio anotuotais tekstynais. Aptartas automatinės morfologinės analizės metu išryškėjęs morfologinis daugiareikšmiškumas, jo atsiradimo priežastys ir galimybės jį sumažinti. Pateikti duomenys apie kaitybinių formų ir kalbos dalių vartoseną morfologiškai anotuotame tekstyne. Tekstyne kiekvienam žodžiui pateiktas antraštinis pavidalas (lema) ir gramatinė pažyma (kalbos dalis ir atitinkamos gramatinės kategorijos). Straipsnyje pateiktas naudotų pažymų sąrašas. Automatiškai anotuojant tekstus naudojama morfologinės analizės programa, kurios leksikonas sudarytas iš 70 tūkst. šaknų ir skaitmeninių kaitybos bei darybos modelių. Morfologiškai anotuoto tekstyno rengimo procesas yra toks: programa anotuoja pirminius tekstus ir pateikia lemas bei gramatines kategorijas. Po automatinės analizės gaunami morfologiškai daugiareikšmiai anotuoti tekstai, todėl reikalingas rankinis vienareikšminimas. Po jo automatiškai generuojami XML formato failai. Morfologiškai anotuotas tekstynas svarbus kalbinei ir statistinei analizei, norint toliau kompiuterizuoti kalbą: kurti automatinės sintaksinės ir semantinės analizės programas. [sutrumpintas autoriaus tekstas]

ENThe article is about the morphologically annotated text data base of 1 million words put together by the Computer Linguistics Centre of VDU (Vytautas Didysis University), Kaunas. The article describes the preparation of the morphologically annotated text data base, the management process, the automated morphological analysis program used, and the phases of annotating the texts. The genre composition of the text data base is stated, likewise the linguistic and non-linguistic markers used, and statistical data about the words in the data base. This text data base is compared to other similar annotated text data bases. The article discusses the morphological ambiguity that emerged during the automated morphological analysis, the reasons for its occurrence and the options for minimising it. Data is given about the use of inflected forms and parts of speech in the morphologically annotated text data base. In the text data base, each word is annotated with a heading (‘lema’) and grammatical indicator (part of speech and matching grammatical categories). The article lists grammatical indicators used. For automatic annotation of the text, a morphological analysis program was used, the lexicon of which is composed of 70,000 word roots and digital inflectional and derivational (word-formation) models. The process of preparing a morphologically annotated text data base is this: the program annotates the primary texts and assigns lemas and grammatical indicators to them. After automated analysis, morphologically polyvalent annotated texts are obtained, therefore manual disambiguation is required. After that, XML format files are automatically generated. The morphologically annotated text data base is important for the further linguistic and statistical analysis that is required in the computerisation of language, namely, the creation of automated syntactical and semantic analysis programs.

ISBN:
9985-894-83-9
Related Publications:
Permalink:
https://www.lituanistika.lt/content/7073
Updated:
2020-11-22 18:36:53
Metrics:
Views: 23
Export: