Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas : problemos ir jų sprendimas

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Lietuvių kalba / Lithuanian
Title:
Automatizuotas lietuvių kalbos veiksmažodžių kirčiavimas: problemos ir jų sprendimas
Alternative Title:
The Automatic accentuation of lithuanian language verbs: related problems and their resolution
In the Book:
Baltų ir kitų kalbų fonetikos ir akcentologijos problemos. Vilnius: Vilniaus pedagoginio universiteto leidykla, 2004. P. 166-173
Keywords:
LT
Veiksmažodis; Kirčiavimas; Skiemuo; Algoritmai.
EN
Verb; Accentuation; Syllable; Algorithm.
Summary / Abstract:

LTStraipsnyje pristatomas algoritmas, kuris leidžia automatiškai užrašyti lietuvių kalbos žodžius SAMPA-LT fonetinės transkripcijos ženklais (transkribuoti). Žodžių užrašymo fonetinės transkripcijos ženklais algoritmas veikia trimis etapais: pradžioje žodžiai yra skiemenuojami, vėliau kirčiuojami ir galiausiai transkribuojami. Iš šių trijų sudėtingiausia yra automatinio kirčiavimo užduotis. Pasiūlytas kirčiavimo algoritmas remiasi tradicinėmis kirčiavimo taisyklėmis, kurias performulavo ir sprendimų medžio pavidalu struktūrizavo lietuvių kalbos ekspertai. Kirčiavimo taisyklės grupuojamos pagal lietuvių kalbos dalis ir/arba atskiras morfologines kategorijas. Algoritmas taip pat remiasi specialiai šiam darbui surinktais ir paruoštais lingvistiniais resursais: žiniomis apie hiato vartojimą, apie pirminius ir mišriuosius lietuvių kalbos veiksmažodžius bei jų pagrindines formas, apie daiktavardžių ir būdvardžių kirčiuotes, taip pat žiniomis apie lietuvių kalboje vartojamus tarptautinius žodžius. Pasiūlyto automatinės žodžių transkripcijos algoritmo tikslumas buvo eksperimentiškai įvertintas, liepiant jam apdoroti apie 50000 skirtingų žodžių formų. Šis žodžių formų sąrašas buvo sudarytas iš dažninio lietuvių kalbos žodžių sąrašo atrenkant po 100 dažniausių kiekvienos morfologinės kategorijos žodžių. Eksperimentai parodė, kad aprašyto algoritmo transkripcijos tikslumas siekia 93.5%, jei skaičiuojami taisyklingai transkribuoti žodžiai, ir 98.9%, jei skaičiuojami tinkami fonetiniai ženklai. [Iš leidinio]

ENFor quite some time there has been a need for automated stressed syllable identification in digital technology research focused on Lithuanian texts. This would be very useful for Lithuanian speech synthesis and recognition, automated text transcription, text prosody research, and also computerised teaching/learning of stress patterns in Lithuanian phonology. Lithuanians lag behind in this field because of our language’s complicated grammatical system and phonological stress patterns. The first researcher in the field of computerising Lithuanian stress patterns was P. Kasparaitis (2001), but his algorithm is used only in the synthesiser he created himself. It cannot be used by other researchers or by language users who want to learn correct stress patterns or check their knowledge. For this reason the authors of this article tried to create their own algorithm. They met with a number of problems. The creation of algorithms, their analysis and testing of the resultant software program all showed that the most problematic aspect is not the actual formulation of word accentuation paradigms, but the accuracy and reliability of the initial data about each word. In order for a program to allocate syllable stress correctly, it is necessary that: 1) specialists in lexicon and morphology assist in solving the problems of homographs (e.g., girià [‘forest’] – gìria [‘{he, she} praises’]); 2) all existing word lists be checked: new verbs to be added, prefixed verbs should only appear in the root form (e.g., pajėgti [‘to afford, manage, be able, cope’] should appear in the list only as jėgti); 3) an algorithm for pronominalised forms should be created and checked.

ISBN:
9955516860
Related Publications:
Permalink:
https://www.lituanistika.lt/content/6873
Updated:
2013-04-28 16:30:38
Metrics:
Views: 28
Export: