Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais

Anbinderis, Tomas; Kasparaitis, Pijus

Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais

Direct Link:

Open Access (CC) BY 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Lietuvių kalba / Lithuanian

Title:

Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais

Alternative Title:

Disambiguation of Lithuanian homographs based on the frequencies of lexemes and morphological tags

Authors:

In the Journal:

Kalbų studijos Studies About Languages, 2009, 14, 25-31

Subject terms:

Kirčiavimas. Tartis. Akcentologija / Accent. Accentology; Morfologija / Morphology.

Summary / Abstract:

LTNorint sintezuoti balsą iš teksto, tekstą reikia sukirčiuoti. Problema ta, kad egzistuojantys lietuvių kalbos automatinio kirčiavimo algoritmai kai kuriems žodžiams (homografams) pateikia daugiau negu vieną kirčiavimo variantą. Šiame darbe homografams vienareikšminti pritaikytas iki šiol lietuvių kalbai nenaudotas metodas, pagrįstas leksemų ir morfologinių pažymų vartosenos dažniais, gautais iš vieno milijono žodžių te- kstyno. Tekstynas iš pradžių buvo sukirčiuotas automatiškai, po to pakoreguotas rankiniu būdu. Homografai vienareikšminami atmetant rečiau vartojamas gramatines formas ir leksemas. Papildomų sunkumų sukelia tas faktas, kad vienas žodis gali atitikti daugiau negu dvi gramatines formas. Šios problemos sprendimui pasiūlyta skaičiuoti gramatinių formų porų dažnius. Darbe parodyta, kad morfologinių pažymų dažniai yra svarbesni už leksemų dažnius. Pasiūlyti metodai leido homografus vienareikšminti 85,01% tikslumu. Nors šie metodai ne- sinaudoja jokia informacija apie žodžio kontekstą, pasiekti rezultatai panašūs į kontekstą naudojančio algoritmo ID3 rezultatus.

ENIn the text-to-speech synthesis it is necessary to stress the text. The main problem is that currently existing algorithms of stress for Lithuanian produce more than a single stressing possibility for some words (homographs). The method based on frequency of occurrences of certain lexemes and morphological tags was proposed in this work. Such method has never been used for Lithuanian. The frequencies were calculated using text corpus containing 1 million words. Text corpus was stressed automatically and then corrected manually. Disambiguation of homographs is performed by removing less frequently used grammatical forms and lexemes. Additional problems arise due to the fact that a single word can correspond to more than two grammatical forms. The method based on the frequencies of pairs of grammatical forms was proposed in this work. It was shown that the frequencies of morphological tags play more important role than the frequencies of lexemes. The method proposed allows disambiguating the homographs with the accuracy of 85.01%. Despite the fact that the method proposed does not employ contextual information, the results achieved are comparable with those achieved with the algorithm ID3 that uses the context.

ISSN:

1648-2824; 2029-7203

Subject area:

Kalbotyra / Linguistics

Related Publications:

An Overview of Lithuanian intonation: a linguistic and modelling perspective. Informatica 2022, 33, 4, 795-832.
Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas. Kalbų studijos 2006, 9, 30-37.
Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas. Baltų ir kitų kalbų fonetikos ir akcentologijos problemos. Vilnius: Vilniaus pedagoginio universiteto leidykla, 2004. P. 166-173.
Bendrinės lietuvių kalbos daiktavardžių ir būdvardžių kirčiavimo struktūrinis modelis, algoritmas ir realizacija. Kalbų studijos 2004, 6, 72-76.
Homoformos dabartinės lietuvių kalbos tekstyne.. Lituanistica 2002, 2, 86-101.
Klitikų paieškos lietuviškame tekste algoritmai. Kalbų studijos 2007, 10, 30-37.
Lietuviško balso sintezatorių kokybės vertinimas. Kalbų studijos 2016, 28, 80-91.
Lietuvių kalbos difonų bazių optimizavimas. Kalbų studijos 2011, 19, 64-69.
Statistiniai, loginiai ir kompiuterių mokymosi metodai lietuvių kalbos morfologiniam daugiareikšmiškumui riboti. Informacinės technologijos, 2006: konferencijos pranešimų medžiaga, [2006 m. sausio mėn. 25-26 d.]. T. 1. Kaunas: Technologija, 2006. p. 104-108.

Permalink:

https://www.lituanistika.lt/content/22103

Updated:

2026-05-26 14:16:31

Metrics:

Views: 106 Downloads: 12

Export:

Choose type:

Download

User ID:
User Password: