Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus

RinkinysMokslo publikacijos / Scientific publications
Publikacijos rūšisKnygos dalis / Part of the book
KalbaLietuvių kalba / Lithuanian
AntraštėStatistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus
Kita antraštėStatistical topic mixture language models of Lithuanian
Autoriai
KnygojeInformacinės technologijos : konferencijos pranešimų medžiaga: 2005 m. sausio mėn. 26-27 d. T. 1 . 2005, p. 309-314
Reikšminiai žodžiai
LTStatistinis kalbos modeliavimas; Maišatis; Adaptyvūs modeliai; Žanrų mišinių modeliai
ENStatistical language modelling; Interpolation length; Topic mixture technique
Santrauka / Anotacija

LTŠiame straipsnyje pristatomas lietuvių kalbos statistinio modeliavimo žanrų trigramų mišiniu tyrimas. Remiantis VDU KLC sukauptu tekstynu, sukurti 4, 8, ..., 128 žanrų trigramų mišiniai. Ištirta sukurtų kalbos modelių maišaties priklausomybė nuo būdo, kuriuo mokymo imties tekstai grupuojami į žanrų klasterius. Parodyta, kad automatinis tekstų grupavimas į žanrus, remiantis tuose tekstuose esančių žodžių pagrindinėmis formomis, yra pranašesnis už eksperto atliekamą grupavimą ar grupavimą, atliekamą, remiantis žodžių formomis. Ištirta sukurtų kalbos modelių maišatis, dinamiškai keičiant mišinio trigramų svorius, ir maišaties priklausomybė nuo svorių optimizavimui naudojamos paskutiniųjų žodžių istorijos dydžio. Geriausi žanrų trigramų mišiniai turėjo 28% mažesnę maišatį nei standartinė atskaitos trigrama. [Iš leidinio]

ENIn this article a study of statistical modelling of the Lithuanian language using a genre trigram mixture is introduced. Using the Vytautas Magnus University KLC text database, trigram mixtures of 4, 8, ..., 128 genres were created. It was determined that the degree of randomness of the language models depends on the manner in which the teaching texts are grouped into genre clusters. It was shown that automatic grouping of texts into genres, using the base forms of the words appearing in those texts, is more productive than grouping done by an expert or grouping done on the basis of word forms. The degree of randomness of the language models was tested by dynamically altering the mixture’s trigram values, and to optimise the randomness’ dependence on these values, the values used were the last values of the words. The best genre trigram mixtures had 28 % less randomness than the standard reference trigram.

ISBN9955097884
Mokslo sritisKalbotyra / Linguistics
Nuoroda į įrašą https://www.lituanistika.lt/content/1604
Atnaujinta2013-04-28 15:31:15
Metrika Peržiūros: 4