Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas

Kazlauskienė, Asta; Norkevičius, Giedrius; Raškinis, Gailius

Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygų dalys / Parts of the books

Language:

Lietuvių kalba / Lithuanian

Title:

Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas

Authors:

In the Book:

Baltų ir kitų kalbų fonetikos ir akcentologijos problemos. P. 166-173.. Vilnius: Vilniaus pedagoginio universiteto leidykla, 2004

Subject terms:

Kirčiavimas. Tartis. Akcentologija / Accent. Accentology.

Summary / Abstract:

LTStraipsnyje pristatomas algoritmas, kuris leidžia automatiškai užrašyti lietuvių kalbos žodžius SAMPA-LT fonetinės transkripcijos ženklais (transkribuoti). Žodžių užrašymo fonetinės transkripcijos ženklais algoritmas veikia trimis etapais: pradžioje žodžiai yra skiemenuojami, vėliau kirčiuojami ir galiausiai transkribuojami. Iš šių trijų sudėtingiausia yra automatinio kirčiavimo užduotis. Pasiūlytas kirčiavimo algoritmas remiasi tradicinėmis kirčiavimo taisyklėmis, kurias performulavo ir sprendimų medžio pavidalu struktūrizavo lietuvių kalbos ekspertai. Kirčiavimo taisyklės grupuojamos pagal lietuvių kalbos dalis ir/arba atskiras morfologines kategorijas. Algoritmas taip pat remiasi specialiai šiam darbui surinktais ir paruoštais lingvistiniais resursais: žiniomis apie hiato vartojimą, apie pirminius ir mišriuosius lietuvių kalbos veiksmažodžius bei jų pagrindines formas, apie daiktavardžių ir būdvardžių kirčiuotes, taip pat žiniomis apie lietuvių kalboje vartojamus tarptautinius žodžius. Pasiūlyto automatinės žodžių transkripcijos algoritmo tikslumas buvo eksperimentiškai įvertintas, liepiant jam apdoroti apie 50000 skirtingų žodžių formų. Šis žodžių formų sąrašas buvo sudarytas iš dažninio lietuvių kalbos žodžių sąrašo atrenkant po 100 dažniausių kiekvienos morfologinės kategorijos žodžių. Eksperimentai parodė, kad aprašyto algoritmo transkripcijos tikslumas siekia 93.5%, jei skaičiuojami taisyklingai transkribuoti žodžiai, ir 98.9%, jei skaičiuojami tinkami fonetiniai ženklai.

ENFor quite some time there has been a need for automated stressed syllable identification in digital technology research focused on Lithuanian texts. This would be very useful for Lithuanian speech synthesis and recognition, automated text transcription, text prosody research, and also computerised teaching/learning of stress patterns in Lithuanian phonology. Lithuanians lag behind in this field because of our language’s complicated grammatical system and phonological stress patterns. The first researcher in the field of computerising Lithuanian stress patterns was P. Kasparaitis (2001), but his algorithm is used only in the synthesiser he created himself. It cannot be used by other researchers or by language users who want to learn correct stress patterns or check their knowledge. For this reason the authors of this article tried to create their own algorithm. They met with a number of problems. The creation of algorithms, their analysis and testing of the resultant software program all showed that the most problematic aspect is not the actual formulation of word accentuation paradigms, but the accuracy and reliability of the initial data about each word. In order for a program to allocate syllable stress correctly, it is necessary that: 1) specialists in lexicon and morphology assist in solving the problems of homographs (e.g., girià [‘forest’] – gìria [‘{he, she} praises’]); 2) all existing word lists be checked: new verbs to be added, prefixed verbs should only appear in the root form (e.g., pajėgti [‘to afford, manage, be able, cope’] should appear in the list only as jėgti); 3) an algorithm for pronominalised forms should be created and checked.

Subject area:

Kalbotyra / Linguistics

Related Publications:

Bendrinės lietuvių kalbos daiktavardžių ir būdvardžių kirčiavimo struktūrinis modelis, algoritmas ir realizacija. Kalbų studijos 2004, 6, 72-76.
Klitikų paieškos lietuviškame tekste algoritmai. Kalbų studijos 2007, 10, 30-37.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Lietuvių kalbos homografų vienareikšminimas remiantis leksemų ir morfologinių pažymų vartosenos dažniais. Kalbų studijos 2009, 14, 25-31.

Permalink:

https://www.lituanistika.lt/content/6873

Updated:

2026-04-17 07:53:38

Metrics:

Export:

Choose type:

Download

User ID:
User Password: