Sprendimo medžių panaudojimas skiemenavimo problemai spręsti

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Lietuvių kalba / Lithuanian
Title:
Sprendimo medžių panaudojimas skiemenavimo problemai spręsti
Keywords:
LT
Kalbos garsai. Abėcėlė / Speech sounds. Alphabet.
Summary / Abstract:

LTŠiame darbe lietuvių kalbos automatinio skiemenavimo uždavinys suformuluotas kaip atpažinimo problema. Darbe nagrinėjami metodai, kurie leidžia atskirti greta einančių balsių porų klases: klasę, kai balsiai sudaro dvibalsį ir priklauso vienam skiemeniui, bei klasę, kai balsiai priklauso dviems skirtingiems skiemenims. Skirtingai nuo panašių darbų, kuriuose klasių atskyrimas paremtas išsamiu mažesnės klasės objektų išvardijimu, šiame darbe klases siūloma atskirti naudojant sprendimo medžius (ID3). Mokymui buvo panaudota beveik 600000 skirtingų žodžių formą, paimtą iš VDU KLC tekstyno. Eksperimentai parodė, kad net ir paprastas požymių rinkinys, grindžiamas balsių poros aplinkoje esančiomis raidėmis, leidžia pasiekti mažesnę nei 0,3% atpažinimo klaidą. Sprendimo medžius naudojanti atpažinimo metodika palyginta su kitais atpažinimo metodais ir su skiemenavimu išsamaus išvardijimo būdu. [Iš leidinio]Reikšminiai žodžiai: Tekstynas; Skiemenavimas; Balsiai; Sprendimo medžiai; Sprendimų medis; Decision tree; Hyphenation; Vowels.

ENIn this paper automatic hyphenation problem is stated as identification task. Methods described here allow separating classes of vowels that are alongside in the word: class when vowels compose to diphthong and are in one syllable and class when vowels belong to two different syllables. Differently from similar jobs where separating of vowels is based on comprehensive enumeration of smaller class objects, here is described case of separating classes using decision trees (ID3). There were used almost 600000 different words from VDU KLC text corpus for learning purposes. Experiments showed that even simple set of signs, based on letters from a pair of vowels environment allow to achieve less than 0.3 % identification error. Methods that use decision trees for identification are compared with other identification methods and with a method of comprehensive enumeration. [From the publication]

ISBN:
9955099933
Related Publications:
Permalink:
https://www.lituanistika.lt/content/8537
Updated:
2013-04-28 16:47:32
Metrics:
Views: 22
Export: