LTDisertacijoje nagrinėjami lietuvių rišlios šnekos atpažinimo sistemų akustiniai modeliai ir jų savybės – pasiekiamas atpažinimo tikslumas, modelių sudėtingumas, modeliuojamų fonetinių vienetų dažniai. Apžvelgiami šnekos atpažinimo metodai, išryškinant lietuvių ir jai kaimyninių kalbų šnekos atpažinimo tyrimus. Analizuojama literatūra akustinio modeliavimo vienetų bei modelių sudėtingumo parinkimo klausimais. Aptariamos lietuvių kalbos savybės, apsunkinančios tradicinių metodų pritaikymą lietuvių šnekos atpažinimui. Lietuvių šnekos akustiniai modeliai tiriami naudojant statistinį Bayes atpažinimo karkasą. Pateikiamas detalus eksperimentinės atpažinimo sistemos, naudojančios HTK įrankius bei originalią programinę įrangą, modelis, į kurį pasiūlyta įterpti skiemenavimo, dažnių analizės ir transformacijos modulius, skirtus akustinio modeliavimo vienetų bei modelių sudėtingumo parinkimui. Disertacijoje pasiūlyti ir eksperimentiškai ištirti akustinio modeliavimo metodai leidžia efektyviai išnaudoti apmokymo duomenis. Eksperimentai įvykdyti naudojant nuo kalbėtojo neprikalstomą rišlios šnekos atpažinimo sistemą su 5500 žodžių atpažinimo žodynu, bet šie metodai gali būti pritaikomi įvairaus pobūdžio lietuvių šnekos atpažinimo sistemose. Disertacijos prieduose pateikiami eksperimentiniams tyrimams naudoto garsyno artefaktų pavyzdžiai, dažniausių žodžių, fonemų, dažniausių kontekstinių fonemų bei skiemenų kiekiai mokymo duomenyse, preliminaraus testavimo rinkinio atpažinimo rezultatai su pažymėtomis klaidomis.
ENThis dissertation examines the acoustic models of Lithuanian continuous speech recognition systems and its characteristics – the precision of recognition achievable, complexity of the models, and frequency of phonetic units that are modelled. Speech recognition methods are overviewed by highlighting the speech recognition research of Lithuanian and other languages of neighbouring countries. The literature on acoustic modelling of units and choice of the complexity of the models are analysed. The characteristics of Lithuanian language which make the adaptation of traditional methods for the recognition of Lithuanian speech are discussed. The acoustic models for Lithuanian speech were analysed using Bayes statistical pattern recognition network. A detailed model of the experimental recognition system, using a HTK toolkit and original programme equipment, in which it is suggested to insert a syllable model, frequency analysis methods and a transformation model for the selection of the acoustic modelling of units and model complexity. The acoustic modelling methods offered and carried out on an experimental basis allow one to effectively use the instruction data. The experiments were carried out using a continuous speech recognition system not dependent upon the speaker, with a recognition dictionary of 5500 words, but these methods could be applied in Lithuanian speech recognition systems of various kinds. The sound artefact examples and the amount of most often used words, phonemes, and most used contextual phonemes and syllables in instruction data, and the results of preliminary testing of the recognition of a corpus, with registered mistakes.