Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Lietuvių kalba / Lithuanian
Title:
Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus
Alternative Title:
Statistical topic mixture language models of Lithuanian
Summary / Abstract:

LTŠiame straipsnyje pristatomas lietuvių kalbos statistinio modeliavimo žanrų trigramų mišiniu tyrimas. Remiantis VDU KLC sukauptu tekstynu, sukurti 4, 8, ..., 128 žanrų trigramų mišiniai. Ištirta sukurtų kalbos modelių maišaties priklausomybė nuo būdo, kuriuo mokymo imties tekstai grupuojami į žanrų klasterius. Parodyta, kad automatinis tekstų grupavimas į žanrus, remiantis tuose tekstuose esančių žodžių pagrindinėmis formomis, yra pranašesnis už eksperto atliekamą grupavimą ar grupavimą, atliekamą, remiantis žodžių formomis. Ištirta sukurtų kalbos modelių maišatis, dinamiškai keičiant mišinio trigramų svorius, ir maišaties priklausomybė nuo svorių optimizavimui naudojamos paskutiniųjų žodžių istorijos dydžio. Geriausi žanrų trigramų mišiniai turėjo 28% mažesnę maišatį nei standartinė atskaitos trigrama. [Iš leidinio]Reikšminiai žodžiai: Statistinis kalbos modeliavimas; Maišatis; Adaptyvūs modeliai; Žanrų mišinių modeliai; Statistical language modelling; Interpolation length; Topic mixture technique.

ENIn this article a study of statistical modelling of the Lithuanian language using a genre trigram mixture is introduced. Using the Vytautas Magnus University KLC text database, trigram mixtures of 4, 8, ..., 128 genres were created. It was determined that the degree of randomness of the language models depends on the manner in which the teaching texts are grouped into genre clusters. It was shown that automatic grouping of texts into genres, using the base forms of the words appearing in those texts, is more productive than grouping done by an expert or grouping done on the basis of word forms. The degree of randomness of the language models was tested by dynamically altering the mixture’s trigram values, and to optimise the randomness’ dependence on these values, the values used were the last values of the words. The best genre trigram mixtures had 28 % less randomness than the standard reference trigram.

ISBN:
9955097884
Related Publications:
Permalink:
https://www.lituanistika.lt/content/1604
Updated:
2013-04-28 15:31:15
Metrics:
Views: 42
Export: