Cache-based statistical language models of English and highly inflected Lithuanian

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Cache-based statistical language models of English and highly inflected Lithuanian
Alternative Title:
Statistiniai kompiuterine talpykla paremti anglų kalbos ir kaitomos lietuvių kalbos modeliai
In the Journal:
Informatica. 2006, vol. 17, no. 1, p. 111-124
Keywords:
LT
Anglų kalba / English language; Kolektyvinė atmintis / Collective memory; Žodžių jungimas. Sakiniai. Sakinio dalys / Word phrases. Sentences. Sentence parts.
Summary / Abstract:

LTStraipsnio tikslas – ištirti statistinių kompiuterine talpykla paremtų kalbos modelių įvairovę. Šie kalbos modeliai sudaryti remiantis trim fondais: anglų kalba, lietuvių kalba ir pamatinėmis lietuvių kalbos formomis. Straipsnyje aptariam talpyklos dydžio, irimo funkcijos tipo, įskaitant įprasto tekstyno iškeltų funkcijų įtaka. Taip pat analizuojama įterpiamosios technikos (statiška prieš dinamiška) kalbos modelio dilema. Geriausi rezultatai gauti iš modelio, turinčio tris komponentus: standartinę 3-gramą, nykimo talpyklos 1-gramą ir nykimo talpyklos 2-gramą, kurios sujungtos linijinės interpoliacijos naudojant dinaminę masės atnaujinimo techniką. Toks modelis leidžia 36% ir 43% patobulinti dilemą atsižvelgiant į 3-gramą, kuri yra išeities taškas lietuvių kalbos žodžiams ir atitinkamai letuvių kalbos žodžių pamatinėms formoms. Geriausias anglų kalbos modelis leidžia patobulinti dilemą 16%. Toks talpykla paremtas siūlymas didesnę naudą turi kaitomose kalbose.Reikšminiai žodžiai: Kalbos modeliai; Trumpalaikę atmintį naudojantys modeliai; Dinaminis interpoliavimas; Laisva žodžių tvarka kalboje; Language models; Cache models; Dynamic interpolation; Perplexity reduction; Inflected language; Free word order language; Lithuanian.

ENThe purpose of this article is to study a variety of statistical cache-based language models built upon three corpora: English, Lithuanian, and Lithuanian-based forms. The article discusses the impact of the cache size, type of the decay function, including custom corpus derived functions, and interpolation technique (static vs. dynamic) on the perplexity of a language model. The best results are achieved by a model consisting of three components: standard 3-gram, decaying cache 1-gram and decaying cache 2-gram that are joined together by means of linear interpolation using the technique of dynamic weight update. Such a model facilitates 36% and 43% perplexity improvement with respect to the 3-gram baseline for Lithuanian words and Lithuanian word base forms, respectively. The best language model of English facilitates 16% perplexity improvement. Such cache-based modelling is more useful in highly inflected languages.

ISSN:
0868-4952
Related Publications:
Permalink:
https://www.lituanistika.lt/content/8318
Updated:
2021-03-17 17:10:33
Metrics:
Views: 12
Export: