Dabartinės lietuvių kalbos gramatinių formų vartosena morfologiškai anotuotame tekstyne

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Dabartinės lietuvių kalbos gramatinių formų vartosena morfologiškai anotuotame tekstyne
Alternative Title:
Usage of grammatical forms of the contemporary Lithuanian language in the morphologically annotated corpus
In the Journal:
Lituanistica . 2006, Nr. 2, p. 34-55
Notes:
LDB Open.
Keywords:
LT
Morfologiškai anotuotas tekstynas; Kalbos dalys; Gramatinės formos
EN
Morphologically annotated corpus; Part of speech; Word form
Summary / Abstract:

LTStraipsnyje pristatytas Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centre parengtas morfologiškai anotuotas tekstynas, apžvelgti kiti anotuoti lietuvių kalbos tekstynai, pateikti ir palyginti jų duomenys. Aprašytas morfologiškai anotuoto tekstyno rengimas, tvarkymo procesas, naudota automatinė morfologinės analizės programa, teksto anotavimo etapai; pateikta tekstyno žanrinė sudėtis, naudojamos kalbinės ir nekalbinės pažymos, statistiniai duomenys apie tekstyną sudarančius žodžius. Trumpai aptartas automatinės morfologinės analizės metu išryškėjęs morfologinis daugiareikšmiškumas, jo atsiradimo priežastys. Remiantis morfologiškai anotuoto tekstyno duomenimis, galima daryti išvadas apie dažniausiai vartojamas dabartinės lietuvių kalbos gramatines formas. Nustatyta, kad vartojama labai mažai skirtingų kaitybinių formų: vienai lemai tenka tik 2,34 kaitybinės formos (tai reiškia, kad, pvz., daiktavardis gali turėti 14 formų (7 vienaskaitos ir 7 daugiskaitos linksnius), bet realiai vartojamos tik 2–3 formos). Straipsnyje pateikti duomenys apie kalbos dalių, įvairių gramatinių kategorijų (giminės, skaičiaus, linksnių, nuosakos, laiko, asmens, laipsnio, apibrėžtumo), veiksmažodžių asmenuojamųjų ir neasmenuojamųjų formų, tikrinių ir bendrinių daiktavardžių, skaitvardžių, kaitomų ir nekaitomų formų vartojimą morfologiškai anotuotame tekstyne. Remiantis šiais duomenimis galima daryti išvadą, kad lietuvių kalba yra fleksinė, pasižyminti sudėtingomis kaitybinėmis paradigmomis, bet realiai tekstuose vartojama tik nedidelė tų kaitybinių formų dalis. [Iš leidinio]

ENThis paper deals with the usage of parts of speech and their grammatical features in the morphologically annotated corpus of the Lithuanian language. This corpus was compiled and processes at the Centre of Computational Linguistics of Vytautas Magnus University. The morphologically annotated corpus is a set of XML files, containing one million morphologically annotated running words. Each annotation for a word form contains its normalised form (lemma) and a full set of morphological properties. Non-word textual units, such as punctuation marks, spaces, paragraphs, numbers, etc. are presented in the morphologically annotated corpus by special marks. The morphologically annotated corpus shows that the variety of inflectional forms in real usage is not as great as in the grammatical system, since highly inflected parts of speech as verbs and nouns have less than three word-forms on average. Pronouns demonstrated a surprisingly large number of word forms actually used in the contemporary Lithuanian language. Overall, the tendencies for the usage of different word classes coincide with the data obtained by other researches, i.e., nouns and other nominal words have the largest coverage (39% are nouns, 8.7% pronouns, 7.33% adverbs, 6.72% adjectives, and 20% are verbs). The morphologically annotated corpus is of great importance for the future development of parsing tools, treebanks [9]and other resources in the Lithuanian language.

ISSN:
0235-716X, 2424-4716
Related Publications:
Permalink:
https://www.lituanistika.lt/content/2535
Updated:
2018-12-17 11:44:58
Metrics:
Views: 12    Downloads: 2