Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais
Alternative Title:
Disambiguation of Lithuanian homographs based on the frequencies of lexemes and morphological tags
In the Journal:
Kalbų studijos [Studies About Languages]. 2009, Nr. 14, p. 25-31
Keywords:
LT
kompiuterinė lingvistika; balso sintezė; vienareikšminimas; kirčiavimas; homografai; leksema; morfologinė pažyma; teksto kirčiavimas; tomografai.
EN
computational linguistics; text-to-speech synthesis; disambiguotation; stressing; homographs; lexeme; morphological tag; tomographs; disambiguation; voice synthesis.
Summary / Abstract:

LTNorint sintezuoti balsą iš teksto, tekstą reikia sukirčiuoti. Problema ta, kad egzistuojantys lietuvių kalbos automatinio kirčiavimo algoritmai kai kuriems žodžiams (homografams) pateikia daugiau negu vieną kirčiavimo variantą. Šiame darbe homografams vienareikšminti pritaikytas iki šiol lietuvių kalbai nenaudotas metodas, pagrįstas leksemų ir morfologinių pažymų vartosenos dažniais, gautais iš vieno milijono žodžių te- kstyno. Tekstynas iš pradžių buvo sukirčiuotas automatiškai, po to pakoreguotas rankiniu būdu. Homografai vienareikšminami atmetant rečiau vartojamas gramatines formas ir leksemas. Papildomų sunkumų sukelia tas faktas, kad vienas žodis gali atitikti daugiau negu dvi gramatines formas. Šios problemos sprendimui pasiūlyta skaičiuoti gramatinių formų porų dažnius. Darbe parodyta, kad morfologinių pažymų dažniai yra svarbesni už leksemų dažnius. Pasiūlyti metodai leido homografus vienareikšminti 85,01% tikslumu. Nors šie metodai ne- sinaudoja jokia informacija apie žodžio kontekstą, pasiekti rezultatai panašūs į kontekstą naudojančio algoritmo ID3 rezultatus. [Iš leidinio]

ENIn the text-to-speech synthesis it is necessary to stress the text. The main problem is that currently existing algorithms of stress for Lithuanian produce more than a single stressing possibility for some words (homographs). The method based on frequency of occurrences of certain lexemes and morphological tags was proposed in this work. Such method has never been used for Lithuanian. The frequencies were calculated using text corpus containing 1 million words. Text corpus was stressed automatically and then corrected manually. Disambiguation of homographs is performed by removing less frequently used grammatical forms and lexemes. Additional problems arise due to the fact that a single word can correspond to more than two grammatical forms. The method based on the frequencies of pairs of grammatical forms was proposed in this work. It was shown that the frequencies of morphological tags play more important role than the frequencies of lexemes. The method proposed allows disambiguating the homographs with the accuracy of 85.01%. Despite the fact that the method proposed does not employ contextual information, the results achieved are comparable with those achieved with the algorithm ID3 that uses the context. [From the publication]

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/22103
Updated:
2018-12-17 12:30:43
Metrics:
Views: 72    Downloads: 3
Export: