Lietuvių-latvių ir latvių-lietuvių kalbų lygiagretusis tekstynas LILA

Rimkutė, Erika; Utka, Andrius; Levāne-Petrova, Kristīne

doi:https://doi.org/10.5755/j01.sal.0.23.4582

Lietuvių-latvių ir latvių-lietuvių kalbų lygiagretusis tekstynas LILA

Direct Link:

Open Access (CC) BY 4.0

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Lietuvių kalba / Lithuanian

Title:

Lietuvių-latvių ir latvių-lietuvių kalbų lygiagretusis tekstynas LILA

Alternative Title:

Lithuanian-Latvian, Latvian-Lithuanian parallel corpus (LILA)

Authors:

In the Journal:

Kalbų studijos Studies About Languages, 2013, 23, 70-77

Subject terms:

Baltų kalbos / Baltic languages; Baltų kalbos / Baltic language.

Summary / Abstract:

LTStraipsnyje pristatomas naujas kalbos išteklius – lygiagretusis beveik iš 9 mln. žodžių sudarytas lietuvių–latvių, latvių–lietuvių kalbų tekstynas LILA, kurio tekstai sulygiagretinti pastraipų ir sakinių lygmeniu. Tekstynas yra su metaduomenimis, kuriuose pateikiama informacija apie autorius, leidimo metus ir pan. Tekstynas struktūriškai anotuotas: jame sužymėtos pastraipų ir sakinių ribos. Kol kas tai vienintelis dvikalbis šios kalbų poros tekstynas. Tekstynas parengtas 2011–2012 m. Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro (VDU KLC) darbuotojų kartu su Latvijos universiteto Matematikos ir informatikos instituto Dirbtinio intelekto laboratorijos (LU MII) mokslininkais. Pastraipoms ir sakiniams lygiagretinti naudotas VDU KLC sukurtas pusiau automatinis įrankis Aligner 2.0.6.7. Straipsnyje aprašyta, su kokiomis problemomis, rengdami tekstynus ir kitas kalbos priemones, susiduria rečiau vartojamų kalbų atstovai. Daugiausia problemų kelia ribotas tekstų pasirinkimas, dėl to sunku sudaryti norimos apimties ir pobūdžio tekstynus; ilgai užtrunka spausdintų tekstų skaitmeninimas. Pristatyta tekstyno sudarymo koncepcija, sandara, jo rengimo etapai; išsamiau aprašytas naudotas lygiagretinimo įrankis. Straipsnyje rašyta apie lygiagrečiojo tekstyno paieškos sistemą, šio ir kitų lygiagrečiųjų tekstynų panaudojimo galimybės, ypač kalboms mokyti ir mokytis, struktūrinių lietuvių ir latvių kalbų skirtumų analizei, vertimų kokybės lyginimui, keliakalbiams žodynams sudaryti, kalbų technologijų srityje (kuriant statistinio automatinio vertimo sistemas).

ENPaper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level. The total size of the LILA corpus is 9 m words. So far it is a unique resource for this language pair. The corpus contains metadata with bibliographical information (title, author, year of publishing, etc.). The corpus contains the structural annotation, which includes boundaries of aligned segments, paragraphs, and sentences. The alignment of paragraphs and sentences has been done by the semi-automatic alignment tool Aligner 2.0.6.7. The corpus was compiled during 2011-2012 by scientists of the Vytautas Magnus University’s Centre of Computational Linguistics (VMU CCL) and the Latvian University’s Mathematical and Informatics Institute’s Laboratory of Artificial Intelligence (LU MII). The paper describes problems and challenges that need to be solved, when a parallel corpus for two small languages is created. The limited choice of appropriate parallel material poses the most difficult obstacle, as then it is difficult to compile a corpus of desired size. The paper presents: the conception and structure of the LILA corpus, phases of its compilation, the alignment tool, the query system, and examples of usage. The corpus is especially useful for teaching and learning languages, for comparing languages, for compilation of dictionaries, and for developing language technology tools (e. g. statistical machine translation systems).

DOI:

10.5755/j01.sal.0.23.4582

ISSN:

1648-2824; 2029-7203

Subject area:

Kalbotyra / Linguistics

Related Publications:

‘As long as’, ‘until’ and ‘before’ clauses: zooming in on linguistic diversity. Baltic linguistics 2018, 9, 141-236.
Daugiakalbių tekstynų naudojimas ir taikymas. Darbai ir dienos 2006, 45, 41-62.
Latviešu-lietuviešu-latviešu paralēlo tekstu korpusa izveide. Vārds un tā pētišanas aspekti 2012, 16 (2), 180-188.
Lithuanian-Latvian-Lithuanian parallel corpus. Human language technologies - the Baltic perspective: proceedings of the fifth International Conference Baltic HLT 2012. Amsterdam: IOS Press, 2012. P. 260-264.
Understanding proximity in the Baltic languages: Latvian relational adverbs "blakus" and "līdzās" and their Lithuanian counterparts. Baltistica 2022, 57, 1, 55-86.
When the search domain is back region in Baltic: the Latvian 'aiz' as compared to the Lithuanian 'už'. Studies in Baltic and other languages. Vilnius : Vilniaus universiteto leidykla, 2021. P. 433-466.

Permalink:

https://www.lituanistika.lt/content/51585

Updated:

2026-03-25 15:57:46

Metrics:

Views: 107 Downloads: 8

Export:

Choose type:

Download

User ID:
User Password: