Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus

Vaičiūnas, Airenas; Raškinis, Gailius

Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Knygų dalys / Parts of the books

Language:

Lietuvių kalba / Lithuanian

Title:

Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus

Alternative Title:

Statistical topic mixture language models of Lithuanian

Authors:

In the Book:

Informacinės technologijos: konferencijos pranešimų medžiaga: 2005 m. sausio mėn. 26-27 d. T. 1. p. 309-314.. Kaunas: Technologija, 2005

Summary / Abstract:

LTŠiame straipsnyje pristatomas lietuvių kalbos statistinio modeliavimo žanrų trigramų mišiniu tyrimas. Remiantis VDU KLC sukauptu tekstynu, sukurti 4, 8, ..., 128 žanrų trigramų mišiniai. Ištirta sukurtų kalbos modelių maišaties priklausomybė nuo būdo, kuriuo mokymo imties tekstai grupuojami į žanrų klasterius. Parodyta, kad automatinis tekstų grupavimas į žanrus, remiantis tuose tekstuose esančių žodžių pagrindinėmis formomis, yra pranašesnis už eksperto atliekamą grupavimą ar grupavimą, atliekamą, remiantis žodžių formomis. Ištirta sukurtų kalbos modelių maišatis, dinamiškai keičiant mišinio trigramų svorius, ir maišaties priklausomybė nuo svorių optimizavimui naudojamos paskutiniųjų žodžių istorijos dydžio. Geriausi žanrų trigramų mišiniai turėjo 28% mažesnę maišatį nei standartinė atskaitos trigrama.

ENIn this article a study of statistical modelling of the Lithuanian language using a genre trigram mixture is introduced. Using the Vytautas Magnus University KLC text database, trigram mixtures of 4, 8, ..., 128 genres were created. It was determined that the degree of randomness of the language models depends on the manner in which the teaching texts are grouped into genre clusters. It was shown that automatic grouping of texts into genres, using the base forms of the words appearing in those texts, is more productive than grouping done by an expert or grouping done on the basis of word forms. The degree of randomness of the language models was tested by dynamically altering the mixture’s trigram values, and to optimise the randomness’ dependence on these values, the values used were the last values of the words. The best genre trigram mixtures had 28 % less randomness than the standard reference trigram.

Subject area:

Kalbotyra / Linguistics

Related Publications:

"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Statistical language models of Lithuanian based on word clustering and morphological decomposition. Informatica 2004, 15, 4, 565-580.

Permalink:

https://www.lituanistika.lt/content/1604

Updated:

2026-04-17 07:52:15

Metrics:

Export:

Choose type:

Download

User ID:
User Password: