"Senosios lietuvių kalbos tekstynas" (SLIEKKAS) - nauja diachroninio tekstyno samprata

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
"Senosios lietuvių kalbos tekstynas" (SLIEKKAS) - nauja diachroninio tekstyno samprata
Alternative Title:
"Old Lithuanian reference corpus" (SLIEKKAS). A new concept of a historical corpus
In the Journal:
Darbai ir dienos [Deeds and Days]. 2012, t. 58, p. 257-278
Keywords:
LT
Senoji lietuvių kalba; Senosios lietuvių kalbos tekstynas.
EN
Old Lithuanian; Old Lithuanian Reference Corpus.
Summary / Abstract:

LTGiliosios anotacijos referencinis „Senosios lietuvių kalbos tekstynas“ (SLIEKKAS) parengtas bendradarbiaujant Frankfurto prie Maino Goethe's universitetui (Vokietija), Lietuvių kalbos institutui ir Pisos universitetui (Italija). Tekstyno galutinis tikslas – sudaryti lingvistinį ir tekstinį-technologinį pagrindą referencinio „Senosios lietuvių kalbos tekstyno“ (1500-1800 m., 10 mln. lietuviškų teksto žodžių) sukūrimui ir išmėginti mažesnės apimties bandomąjį tekstyną, apimantį apie 350 000 senosios lietuvių kalbos žodžių. Bandomasis tekstynas reikalingas dėl sudėtingos ir kompleksiškos diachroninių tekstynų struktūros bei diegimo atskiromis dalimis. Tekstyno ypatybės yra šios: jis yra multimodalinis, nes lietuviški tekstai lygiagretinami (alignuojami) su originalo faksimilėmis; išsami informacija pateikiama pažymų (anotacijų) forma, kurios, be metainformacijos, apima lemavimą, glosavimą (dabartine lietuvių k. ir anglų k., numatoma ir vokiečių k.), gramatinę informaciją (POS-tagging = part of speech-tagging, morfologinė ir bazinė sintaksinė informacija), informaciją apie teksto struktūrą, paleografinę ir tekstologinę informaciją; anotacijų sluoksniai pateikiami daugiapakopės (angl. stand-off) architektūros principu; lietuviški tekstai su visais anotacijų sluoksniais lygiagretinami tarpusavyje ir su atitinkamai anotuotais vertimo šaltinių tekstais. Dauguma senųjų lietuvių kalbos tekstų yra pažodiniai vertimai iš lotynų, vokiečių ar lenkų šaltinių, vertimų šaltiniai (bandomojo tekstyno atveju apie 190 000 teksto žodžių) taip pat bus įtraukti į tekstyną.Tai leis sulygiagretinti lietuviškus tekstus su jų šaltiniais. To paties žanro lietuviški tekstai taip pat bus lygiagretinami tarpusavyje siekiant nustatyti įvairiopą interferenciją ir sekti proceso eigą viename žanre bei tarp žanrų. „Senosios lietuvių kalbos tekstynas“ siekia paruošti tolesniems moksliniams tyrimams, visų pirma lingvistiniams, bet taip pat ir istoriniams plačiąja prasme. Jis turi tapti patikimu bei inovatyviu lietuvių kalbos istorijos tyrimų resursu ir padėti rasti atsakymus į įvairius lingvistinius klausimus, taip pat Baltijos šalių literatūros, religijos bei kultūros (tarp jų ir ikikrikščioniškos ir krikščionybės kultūros prieštarų, konfesijų išsiskyrimų ir kt.) studijų šaltiniu. Tai leis atskleisti esminę informaciją apie Lietuvos ir Baltijos šalių kultūros raidą. „Senosios lietuvių kalbos tekstynas“ taip pat turi padėti ir pradėti įgyvendinti du didžiausius diachroninės lituanistikos darbus: senosios lietuvių kalbos gramatikos ir istorinio lietuvių kalbos žodyno rengimą. [versta iš angliškos santraukos]

EN"The Old Lithuanian Reference Corpus" (Lith. Senosios lietuvių kalbos tekstynas; acronym SLIEKKAS, Germ. Rferenzcorpus Altlitauisch), a comprehensive, deeply annotated reference corpus of Old Lithuanian, is being developed in cooperation between the Goethe-University of Frankfurt am Main (Germany), the Institute of Lithuanian Language (Vilnius, Lithuania), and the University of Pisa (Italy). Its ultimate goal is to develop the linguistic and text-technological basis for the creation of a reference corpus of Old Lithuanian (1500-1800, ca. 10 m. text words) and to test it on the basis of an exemplary corpus comprising ca. 350 000 Old Lithuanian tokens. The attempt to start with a test corpus is driven by the necessity to establish complex multilayered structures that are needed for a diachronic corpus, and to apply them gradually. The envisaged annotation scheme of the Corpus embraces the following structural features: a thorough linguistic and textological annotation, including header information, lemmatisation, grammatical information (Part of Speech-Tagging, morphological and basic syntactical information), glossation (in Modern Lithuanian, English, and possibly other languages), information about the text structure (text subdivision into words, sentences, lines, verses, paragraphs etc.), palaeographic and textological information; a multi-level architecture of the annotations; multi-modality of the corpus through the alignment of the texts with facsimile reproductions of the originals. Since most of the Old Lithuanian texts are translations from Latin, German, or Polish sources, the source texts (in the case of the test corpus ca. 190 000 text words) will be accumulated and annotated in the same way as the Lithuanian ones.This will allow for the alignment of the Old Lithuanian texts with their sources. Furthermore, Old Lithuanian texts of the same genre will be aligned with each other in order to allow for an assessment of possible mutual influences within one and the same genre, as well as across genres. "The Old Lithuanian Reference Corpus" will be designed to provide an innovative scientific resource for historical and comparative linguistics as well as literary, religious and cultural studies concerning the Baltic countries, including the controversy between pre-Christian and Christian cultures and the confessional spinoff processes of the area as well as their backgrounds. In this way, essential knowledge of the cultural development of Lithuania and the Baltic countries in the given period will be gained. With regard to historical linguistics, "the Old Lithuanian Reference Corpus" is expected to provide a basis for an efficient development and implementation of further research programmes concerning the diachronic grammar and the lexicon of Lithuanian. [From the publication]

ISSN:
1392-0588; 2335-8769
Related Publications:
Permalink:
https://www.lituanistika.lt/content/44701
Updated:
2018-12-17 13:25:19
Metrics:
Views: 77    Downloads: 8
Export: