Klitikų paieškos lietuviškame tekste algoritmai

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Klitikų paieškos lietuviškame tekste algoritmai
Alternative Title:
Algorithms for detecting clitics in the Lithuanian text
In the Journal:
Kalbų studijos [Studies About Languages]. 2007, Nr. 10, p. 30-37
Notes:
LDB Open.
Keywords:
LT
Akcentinis šlijimas; Algoritmas; Enklitikai; Fonetika; Klitikai; Klitikas; Proklitikai; Sakytinė kalba; Samplaikinė forma; Samplaikinės formos.
EN
Accentual adjoinment; Algorithm; Clisis; Clitic; Clitics; Combination forms; Combinational form; Enclitics; Phonetics; Proclitics; Spoken language.
Summary / Abstract:

LTDarbe nagrinėjamas lietuvių kalbos teksto automatinio kirčiavimo uždavinys. Kirčiuotas tekstas gali būti naudojamas kalbos mokymui, balso sintezėje iš teksto ir pan. Šnekamojoje kalboje kai kurie žodžiai (vadinamieji klitikai) netenka kirčio, t. y. prišlyja prie gretimo žodžio. Kalbotyros darbuose galima rasti tik bendras pastabas apie žodžių akcentinio šlijimo tendencijas, o klitikų paieškos lietuviškame tekste algoritmai, reikalingi kalbinėms technologijoms, – dar visai nenagrinėta tema. Darbe apžvelgiami šlijimą lemiantys faktoriai ir siūlomi metodai, kaip tekste rasti žodžius, kurie gali būti bekirčiai. Metodai remiasi šiais principais: 1) samplaikinių formų atpažinimu, 2) statistiniu žodžio kirčiavimo/nekirčiavimo dažniu, 3) kai kuriomis gramatikos taisyklėmis bei 4) gretimų žodžių kirčių pasiskirstymu (ritmika). Antrasis metodas yra itin paprastas ir duoda neblogų rezultatų, tačiau darbe parodyta, kad kai kurioms žodžių klasėms geresni rezultatai gaunami taikant trečiąjį ir ketvirtąjį metodus. Kiekvienam metodui apibrėžtos žodžių klasės, kurioms jis geriausiai tinka. Paaiškinta, kaip visus metodus sujungti į vieną algoritmą. Kuriant algoritmą buvo stengiamasi minimizuoti pirmosios ir antrosios rūšies klaidų sumą. Pritaikius šį algoritmą testavimo duomenims, klaidų ir visų žodžių santykis buvo 4,1%, o klaidų ir nekirčiuotų žodžių santykis – 18,8%. [Iš leidinio]

ENThe task of automatic stressing of the Lithuanian text is analyzed in the paper. Stressed text can be used when teaching the Lithuanian language, in the text-to-speech synthesis systems, etc. In spoken language, some words are left unstressed (called clitics) and join the stressed ones. In linguistic papers it is possible to find only common tendencies of clisis however algorithms of clitics‘ search in Lithuanian language text necessary in human language technologies is a completely not researched field. Factors influencing clisis are reviewed and methods for detecting clitics are offered in the present paper. The methods are based on 1) recognizing combinational forms, 2) the statistical frequency of word being stressed/unstressed, 3) some grammatical rules, 4) stressing of adjacent words. The second method is very simple and quite reliable but better results were achieved when using the third and the fourth methods for some classes of words. Words’ classes are defined as well as which method suits best. It is explained, how to join all the methods into one algorithm. We attempt to minimize the sum of mistakes of 1st type and 2nd type when creating this algorithm. By applying this algorithm to the testing data 4.1% mistakes are received among all the words, and the ratio of mistakes and unstressed words is 18.8%. [From the publication]

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/17443
Updated:
2018-12-17 12:04:03
Metrics:
Views: 22    Downloads: 2
Export: