Lietuvių-latvių ir latvių-lietuvių kalbų lygiagretusis tekstynas LILA

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Lietuvių-latvių ir latvių-lietuvių kalbų lygiagretusis tekstynas LILA
Alternative Title:
Lithuanian-Latvian, Latvian-Lithuanian parallel corpus (LILA)
In the Journal:
Kalbų studijos [Studies About Languages]. 2013, Nr. 23, p. 70-77
Keywords:
LT
Lygiagretusis tekstynas; Lietuvių kalba; Latvių kalba; Baltų kalbos; Mažai išteklių turinčios kalbos.
EN
Parallel corpus; Lithuanian language; Latvian language; Baltic languages.
Summary / Abstract:

LTStraipsnyje pristatomas naujas kalbos išteklius – lygiagretusis beveik iš 9 mln. žodžių sudarytas lietuvių–latvių, latvių–lietuvių kalbų tekstynas LILA, kurio tekstai sulygiagretinti pastraipų ir sakinių lygmeniu. Tekstynas yra su metaduomenimis, kuriuose pateikiama informacija apie autorius, leidimo metus ir pan. Tekstynas struktūriškai anotuotas: jame sužymėtos pastraipų ir sakinių ribos. Kol kas tai vienintelis dvikalbis šios kalbų poros tekstynas. Tekstynas parengtas 2011–2012 m. Vytauto Didžiojo universiteto Kompiuterinės lingvistikos centro (VDU KLC) darbuotojų kartu su Latvijos universiteto Matematikos ir informatikos instituto Dirbtinio intelekto laboratorijos (LU MII) mokslininkais. Pastraipoms ir sakiniams lygiagretinti naudotas VDU KLC sukurtas pusiau automatinis įrankis Aligner 2.0.6.7. Straipsnyje aprašyta, su kokiomis problemomis, rengdami tekstynus ir kitas kalbos priemones, susiduria rečiau vartojamų kalbų atstovai. Daugiausia problemų kelia ribotas tekstų pasirinkimas, dėl to sunku sudaryti norimos apimties ir pobūdžio tekstynus; ilgai užtrunka spausdintų tekstų skaitmeninimas. Pristatyta tekstyno sudarymo koncepcija, sandara, jo rengimo etapai; išsamiau aprašytas naudotas lygiagretinimo įrankis. Straipsnyje rašyta apie lygiagrečiojo tekstyno paieškos sistemą, šio ir kitų lygiagrečiųjų tekstynų panaudojimo galimybės, ypač kalboms mokyti ir mokytis, struktūrinių lietuvių ir latvių kalbų skirtumų analizei, vertimų kokybės lyginimui, keliakalbiams žodynams sudaryti, kalbų technologijų srityje (kuriant statistinio automatinio vertimo sistemas). [Iš leidinio]

ENPaper presents a new linguistic resource, LILA, which is the Lithuanian-Latvian-Lithuanian parallel corpus aligned on paragraph and sentence level. The total size of the LILA corpus is 9 m words. So far it is a unique resource for this language pair. The corpus contains metadata with bibliographical information (title, author, year of publishing, etc.). The corpus contains the structural annotation, which includes boundaries of aligned segments, paragraphs, and sentences. The alignment of paragraphs and sentences has been done by the semi-automatic alignment tool Aligner 2.0.6.7. The corpus was compiled during 2011-2012 by scientists of the Vytautas Magnus University’s Centre of Computational Linguistics (VMU CCL) and the Latvian University’s Mathematical and Informatics Institute’s Laboratory of Artificial Intelligence (LU MII). The paper describes problems and challenges that need to be solved, when a parallel corpus for two small languages is created. The limited choice of appropriate parallel material poses the most difficult obstacle, as then it is difficult to compile a corpus of desired size. The paper presents: the conception and structure of the LILA corpus, phases of its compilation, the alignment tool, the query system, and examples of usage. The corpus is especially useful for teaching and learning languages, for comparing languages, for compilation of dictionaries, and for developing language technology tools (e. g. statistical machine translation systems). [From the publication]

ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/51585
Updated:
2018-12-17 13:37:43
Metrics:
Views: 52    Downloads: 2
Export: