Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas
Alternative Title:
Automated Disambiguation of Lithuanian Morphological Ambiguity
In the Journal:
Kalbų studijos [Studies About Languages]. 2006, Nr. 9, p. 30-37
Keywords:
LT
Morfologija / Morphology.
Summary / Abstract:

LTStraipsnyje pristatyti galimi morfologinio daugiareikšmiškumo ribojimo būdai. Lietuvių kalbos morfologinis daugiareikšmiškumas išryškėjo su morfologiniu analizatoriumi automatiškai suanotavus tekstus. Paaiškėjo, kad beveik pusė lietuvių kalbos žodžių ir žodžių formų yra morfologiškai daugiareikšmės. Vieni iš būdų morfologiniam daugiareikšmiškumui riboti yra automatiniai – tai dažniausiai statistiniai, loginiai metodai, kiti morfologinio daugiareikšmiškumo ribojimo būdai yra automatizuoti. Automatizuotą morfologinio daugiareikšmiškumo ribojimą sudaro morfologiškai daugiareikšmių kaitomų ir nekaitomų kalbos dalių vienareikšminimas. Riboti nekaitomų kalbos dalių morfologinį daugiareikšmiškumą yra sudėtinga. Norint sumažinti morfologiškai daugiareikšmių kalbos dalių skaičių, reikia taikyti įvairialypę analizę: reikalingos įvairių lygmenų ir įvairaus pobūdžio taisyklės. Labiausiai riboti nekaitomų kalbos dalių morfologinį daugiareikšmiškumą padeda sakinio skyryba; statistiniai duomenys, gauti iš Dabartinės lietuvių kalbos tekstyno; sintaksinė sakinio analizė; semantika, išsamesnė viso teksto ar kelių gretimų sakinių analizė; pakeitimas kitais aiškiau vartojamais žodžiais; gretimų žodžių morfologinės pažymos; kaip vienas vienetas pažymėtos morfologinės samplaikos. Kaitomų kalbos dalių morfologinio daugiareikšmiškumo ribojimas daugiausia pagrįstas sintaksine analize. Remiantis priklausomybių gramatikos principais buvo parašytos sintaksinės taisyklės, kurios naudojamos ne tik morfologiniam daugiareikšmiškumui riboti, bet gali būti pritaikytos automatinės sintaksinės analizės programoje. [Iš leidinio]Reikšminiai žodžiai: Morfologinis daugiareikšmiškumas; Automatinis/automatizuotas morfologinio daugiareikšmiškumo ribojimo metodas; Sintaksinės taisyklės; Morphological ambiguity; Automatic/automated methods for disambiguation of morphological ambiguity; Syntactic rule.

ENWe describe methods for disambiguation of Lithuanian morphological ambiguity. The methods we present can be automatic and automated. Automatic are statistical and logical methods, also the removal of unreal homonyms. Automated methods are: the removal of unreal homoforms, disambiguation of non-inflective and inflective parts of speech. We need various rules for disambiguation of non-inflective parts of speech. Analysis of punctuation, statistical data from Contemporary Lithuanian Language Corpus, syntactic analysis, semantics, exhaustive analysis of all the text or the nearest few sentences, transformation in more clear words, morphological information, etc. can be useful for this disambiguation. The best method for disambiguation of inflective parts of speech is an automatic syntactic analysis. Syntactic rules we present are based on Dependency Grammar. These rules consist of two levels: the level of word groups (lower level) and the level of the combinations of word groups (upper level). It is very important to recognise which word is the main, i.e., governing, and dependent word in automatic syntactic analysis. Other relation parameters are: word order, insertion, and priority (in some cases). We also have described the methodology of syntactic rules extraction in this article. Statistical and logical methods for disambiguation of morphological ambiguity provides good results – more than 90% of forms can be disambiguated correctly. In the meantime we have no concrete results as to what is the accuracy of automated disambiguation but it is clear that the automatic syntactic analysis can resolve many cases of morphological ambiguity of inflective parts of speech.

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/7069
Updated:
2018-12-20 23:10:40
Metrics:
Views: 70    Downloads: 9
Export: