Lietuvių kalbos leksemų morfologinis anotavimas : ypatumai ir sunkumai

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Lietuvių kalbos leksemų morfologinis anotavimas: ypatumai ir sunkumai
Alternative Title:
Annotation of Lithuanian lexemes: peculiarities and problems
In the Journal:
Kalbų studijos [Studies About Languages]. 2009, Nr. 15, p. 63-70
Notes:
LDB Open.
Keywords:
LT
Tekstynas; automatinė morfologinė analizė; morfologinis anotatorius; daiktavardţiai; tekstynas; daiktavardžiai.
EN
Corpus; automatic morphological analysis; morphological annotator; nouns; lexical database; substantive.
Summary / Abstract:

LTStraipsnyje rašoma apie lietuvių kalbos morfologinio anotatoriaus veikimo principus, automatinės morfologinės analizės specifiką. Didžiausias dėmesys skiriamas vienam iš 2007-2008 m. Valstybinio mokslo ir studijų fondo remto projekto "Internetiniai ištekliai: anotuotas lietuvių kalbos tekstynas ir anotavimo priemonės (ALKA2)" įgyvendintų darbų - lietuvių kalbos morfologinio anotatoriaus leksinės duomenų bazės pildymui. Išsamiai aprašoma į morfologinio anotatoriaus leksikos duomenų bazę įtrauktinų žodžių atranka, morfologinio anotavimo etapai, sunkumai, su kuriais susidurta atliekant šį darbą. Morfologinio anotatoriaus leksikos bazė padidinta 24 000 žodžių (daugiausia tikrinių ir bendrinių daiktavardžių), todėl tikimasi, kad gana žymiai pagerės morfologinio anotatoriaus kokybė ir bus išvengta daugybės neatpažintų žodžių. Šiame straipsnyje norėta parodyti anotavimo procesą; atskleisti, kad kyla sunkumų ne tik vertinant, ar nauji žodžiai teiktini, ar neteiktini, reikalingi lietuvių kalbai ar galima apsieiti be jų; sudėtinga ne tik nustatyti naujų žodžių reikšmes, bet taip pat ir analizuoti morfologiškai: nustatyti linksniavimo paradigmą, giminę, kaitymą skaičiais, darybinius vedinius ir pan. [Iš leidinio]

ENThe article presents the principles of the morphological annotator and the peculiarities of automatic morphological analysis. The paper focuses on building the lexical database of the Lithuanian morphological annotator, which is one of the completed tasks of the project Internet Resources: Annotated Corpus of the Lithuanian Language and Tools of Annotation (ALKA 2), implemented in 2007-2008 and sponsored by the Lithuanian State Science and Studies Foundation. The selection of words to be included into the lexical database of the morphological annotator is described in detail. The stages of morphological annotation and difficulties in this paper are also discussed. The lexical database of the morphological annotator has increased by 24 000 words (mostly proper and common nouns). Therefore it is expected that the quality of the morphological annotator will improve considerably and many unrecognized words will be avoided. The goal of the article is to show the process of annotation. It reveals that problems arise not only during the evaluation of acceptability of new words for the Lithuanian language and the identification of their meanings, but also during their morphological analysis. It is difficult to determine their declension paradigms, gender, number inflection, derivatives, etc. [From the publication]

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/22062
Updated:
2018-12-17 12:30:26
Metrics:
Views: 47    Downloads: 6
Export: