Garsų trukmės modeliavimas naudojant klasifikavimo ir regresijos medžius

Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Lietuvių kalba / Lithuanian
Garsų trukmės modeliavimas naudojant klasifikavimo ir regresijos medžius
Alternative Title:
Modelling the length of sounds using the CART (Classification and Regression Tree) model of analysis
Summary / Abstract:

LTŠiuolaikinių šnekos sintezės sistemų garso generavimo modulių kokybė yra pakankama, kad jas būtų galima praktiškai naudoti. Tačiau sintezuotai šnekai dažnai trūksta natūralumo. To priežastys paprastai yra dvi: netikslūs sintezuotos šnekos garsų trukmės santykiai ir blogai parinkta sintezuoto sakinio intonacija. Šios abi problemos mažai tyrinėtos ir lietuvių kalboje. Straipsnyje gilinamasi į pirmąją problemą: aprašomi keli garsų trukmės modeliavimo metodai bei plačiau analizuojamos klasifikavimo ir regresijos medžių panaudojimo lietuvių kalbos garsų trukmės modeliavimui galimybės. Žvalgomojo pobūdžio tyrimui pasirinkta anotuota 60 tūkst. rišlaus teksto garsų pavyzdžių duomenų bazė. Regresijos medis leido sumažinti balsių ir priebalsių trukmių dispersiją atitinkamai 28 % ir 25 %. [Iš leidinio]Reikšminiai žodžiai: Garsas; Trukmė; Šnekos sintezė; Balsiai; Priebalsiai; Sprendimų medis; Regresijos medis; Dispersija; Duration; Phoneme; Decision tree; Speech synthesis.

ENThe quality of the signal of current speech synthesis systems is now good enough to allow practical application, however the signal (‘voice’) lacks naturalness. There are two reasons for this: inaccurate relative lengths of synthesised speech sounds and unsuitable intonation modulation (or total lack of it). These problems have not been well researched in the filed of for Lithuanian. The aim of this article is to review popular models of the length of speech sounds; and to explain the possibilities for using one method of speech sound length modelling (the CART –Classification and Regression Tree) for Lithuanian. For research of a review nature, an annotated data base of 60,000 coherent text sound samples was chosen. Choosing to focus on vowel prognostication according to its identification, 13 pages were obtained in all. The regression tree reduced by 28 % the set dispersion of the initial vowel duration. Some consistent patterns were established in relation to vowel duration: 1) diphthongs are concentrated at the right of the tree; 2) in most cases the vowels in a mixed sound are shorter than those in the corresponding long vowel; 3) frontalised back vowels may be shorter than non-frontalised. The regression tree reduced by 25 % the set dispersion of the initial consonant duration. No consistent pattern was established, just certain tendencies: 1) the longest consonants are the fricatives; 2) palatalisation of consonants has no noticeable effect on their length; 3) unstressed semi-vowels forming part of a diphthong are also not always shorter than the same semi-vowels when they are not part of a diphthong, although when stressed with circumflex pitch (rising intonation), they are always longer than corresponding non-stressed semivowels; 4) voiced consonants are significantly longer than corresponding unvoiced consonants.

Related Publications:
2013-04-28 16:46:17
Views: 28