Statistical language models of Lithuanian based on word clustering and morphological decomposition

Vaičiūnas, Airenas; Raškinis, Gailius; Kaminskas, Vytautas

Statistical language models of Lithuanian based on word clustering and morphological decomposition

Direct Link:

Open Access (CC) BY

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Anglų kalba / English

Title:

Statistical language models of Lithuanian based on word clustering and morphological decomposition

Alternative Title:

Statistiniai lietuvių kalbos modeliai, pagrįsti žodžių klasterizacija ir žodžių morfologiniu išskaidymu

Authors:

In the Journal:

Informatica, 2004, 15, 4, 565-580

Subject terms:

Morfologija / Morphology.

Summary / Abstract:

LTŠiame straipsnyje pateikti lietuvių kalbos statistinio modeliavimo tyrimai. Darbe išnagrinėti du būdai, kuriais įmanoma pagerinti smarkiai kaitomos Lietuvių kalbos n-gramos tipo statistinius modelius: kalbos žodžių grupavimas į klasterius ir morfologinis žodžių skaidymas į sudedamąsias dalis. Tyrimo metu žodžiai, žodžių pagrindinės formos, ir žodžių kalbos dalies žymės buvo automatiškai grupuojamos į 50–5000 klasterių. Panaudojant 85 mln. žodžių apimties lietuvių kalbos tekstyną, buvo sukurti ir įvertinti keletas skirtingų 3-gramos ir 4-gramos tipo statistinių modelių, panaudojančių informaciją apie žodžių klasterius. Modeliai, panaudojantys žodžių klasterius tiesiškai interpoliuoti su įprastu 3-gramos tipo modeliu sumažino lietuvių kalbos modelio maišatį 13%. Morfologiniai modeliai sumažino neaprėpto žodyno dydį nuo 1,5% iki 1,02%.

ENThis paper describes our research on statistical language modeling of Lithuanian. The idea of improving sparse n-gram models of highly inflected Lithuanian language by interpolating them with complex n-gram models based on word clustering and morphological word decomposition was investigated. Words, word base forms and part-of-speech tags were clustered into 50 to 5000 automatically generated classes. Multiple 3-gram and 4-gram class-based language models were built and evaluated on Lithuanian text corpus, which contained 85 million words. Class-based models linearly interpolated with the 3-gram model led up to a 13% reduction in the perplexity compared with the baseline 3-gram model. Morphological models decreased out-of-vocabulary word rate from 1.5% to 1.02%.

ISSN:

0868-4952

Subject area:

Related Publications:

Cache-based statistical language models of English and highly inflected Lithuanian. Informatica 2006, 17, 1, 111-124.
"Lemuoklis" - morfologinei analizei. Darbai ir dienos 2000, 24, 245-274.
Statistinis lietuvių kalbos modeliavimas, grupuojant tekstus į žanrus. Informacinės technologijos: konferencijos pranešimų medžiaga: 2005 m. sausio mėn. 26-27 d. T. 1. Kaunas: Technologija, 2005. p. 309-314.

Permalink:

https://www.lituanistika.lt/content/19782

Updated:

2026-02-25 13:45:35

Metrics:

Views: 91 Downloads: 2

Export:

Choose type:

Download

User ID:
User Password: