Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne : disertacija

Collection:
Mokslo publikacijos / Scientific publications
Language:
Lietuvių kalba / Lithuanian
Title:
Morfologinio daugiareikšmiškumo ribojimas kompiuteriniame tekstyne: disertacija
Alternative Title:
Limitation of morphological ambiguity in a computer corpus
Publication Data:
Kaunas, 2006.
Pages:
203 p
Notes:
Dr. disert. (humanit. m.) - Vytauto Didžiojo universitetas, Lietuvių kalbos institutas, 2006. Bibliografija.
Other Editions:
Dr. disert. santrauka: Morphological disambiguation of the corpus of Lithuanian language Kaunas : Vytauto Didžiojo universiteto leidykla, 2006 39 p
Summary / Abstract:

LTDisertacijoje aprašomas morfologiškai anotuotas lietuvių kalbos tekstynas, jo sandara, pažymų sistema, tame tekstyne esančių gramatinių formų vartosenos ypatybės. Pagrindinis tyrimo objektas – minėtame tekstyne išryškėjęs lietuvių kalbos morfologinis daugiareikšmiškumas (MD). MD suvokiamas kaip reiškinys, apimantis kaitomas ir nekaitomas; skirtingų ir tų pačių kalbos dalių; tam tikromis formomis, prozodiniais elementais besiskiriančias ir visiškai sutampančias žodžių formas ar žodžius, pvz.: kalba – veiksmažodis ir daiktavardis, padaryti – bendratis ir neveikiamosios rūšies būtojo laiko dalyvio vyriškosios giminės daugiskaitos vardininkas. MD atsiranda dėl įvairių priežasčių: dėl kalbos daugiareikšmiškumo apskritai – tik konkrečiame kontekste paaiškėja tikroji žodžio ar žodžio formos reikšmė; dėl automatinių kalbos anotavimo priemonių specifikos; dėl tinkamai kalbos kompiuterizavimo programoms nepritaikytų lingvistinių resursų. Disertacijoje aptarti esami homonimijos ir MD tyrimui reikalingi terminai, pateikta smulkesnė MD klasifikacija. Disertacijoje pateikti išsamūs duomenys apie dabartinės lietuvių kalbos gramatinių formų vartoseną, kalbos dalių pasiskirstymą; šie duomenys gauti iš morfologiškai anotuoto tekstyno. Disertacijos tikslas – MD ribojimas ir MD ribojimo metodikos sukūrimas. Lietuvių kalbos MD riboti naudoti automatiniai (statistiniai bei loginiai metodai) ir automatizuoti (lingvistiniai metodai) būdai. Daugiausia dėmesio skirta lingvistinėms taisyklėms. MD riboti parašytos priklausomybių gramatika pagrįstos lietuvių kalbos sintaksinės taisyklės, kurios pateiktos disertacijoje. [Iš leidinio]

ENDissertation describes morphologically annotated Lithuanian language corpus, its structure, sign system, specific features of the usage of grammatical forms present in the corpus. The main subject of the research was morphological ambiguity (MA) of Lithuanian language revealed the mentioned corpus. MA is understood as a phenomenon encompassing word forms and words, different in certain forms, prosodic elements and entirely coinciding. Words can be conjugated and non-conjugated, of different and the same language parts: for example: kalba [a language] – verb and noun, padaryti [to do/to make] – infinitive and passive form of past simple tense adverbial participle male gender plural noun case. MA emerges due to a number of reasons: due to general ambiguity of a language – the true meaning of a word or word form becomes clear only in a specific context; due to specific features of automatic language annotation devices; due to linguistic resources inadequately equipped for language-computerization software. The dissertation discusses present homonymies and terms necessary for MA, presents more detailed classification of MA. The dissertation presents exhaustive information about the use of grammatical forms in contemporary Lithuanian language, distribution of language parts; this information is derived from morphologically annotated corpus. The aim of dissertation is to limit MA and create methodology for limiting MA. To limit the cases of MA, syntax rules of Lithuanian language, based on dependency grammar, are prepared and presented in the dissertation.

Related Publications:
Permalink:
https://www.lituanistika.lt/content/7067
Updated:
2022-01-22 18:12:20
Metrics:
Views: 82    Downloads: 20
Export: