Dabartinės lietuvių kalbos tekstynas - 10 metų kaupimo ir naudojimo patirtis

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Dabartinės lietuvių kalbos tekstynas - 10 metų kaupimo ir naudojimo patirtis
Alternative Title:
Textbook of Modern Lithuanian Language – 10 Years of Acquisition and Use
In the Journal:
Keywords:
LT
Dabartinės lietuvių kalbos tekstynas; Dabartinės lietuvių kalbos tekstyno sandara/ypatybės/galimybės.
EN
Corpus of the Contemporary Lithuanian Language; Size/continuity/representativeness of the Lithuanian Language Corpus.
Summary / Abstract:

LTDabartinės lietuvių kalbos tekstynas buvo pradėtas kurti prieš 10 metų VDU Kompiuterinės lingvistikos centre. Jo atsiradimą lėmė naujų technologijų padiktuoti kalbos tyrimo metodai, kurių taikymui buvo ir yra reikalinga autentiškų rašomosios lietuvių kalbos pavyzdžių bazė. Šiame straipsnyje, naudojantis dydžio, reprezentatyvumo ir tęstinumo kriterijais, aptariami probleminiai klausimai, susiję su Tekstyno sandara, trumpai pristatomos paieškos tekstyne galimybės, supažindinama su tekstyno ateities gairėmis. Tekstynas savo internetine versija jau yra peržengęs 100 mln. žodžių skaičių ir kas metai papildomas apie 10 mln. žodžių. Tekstyne kaupiami nepriklausomybės laikotarpio originaliosios neverstinės kalbos tekstai, filosofinės literatūros vertimai į lietuvių kalbą, kiti verstiniai grožinės ir mokslinės bei mokomosios literatūros tekstai. Darbui su VDU Tekstynu naudojama universali programinė įranga – Mike’o Scotto parengtas programinių įrankių paketas WordSmith Tools ir programa CUE (Corpus Universal Examiner) bei įranga, pritaikyta specialiai lietuvių kalbai. Tekstyno pritaikymo įvairovę rodo vis augantis jo vartotojų bei paieškų skaičius. Spartus vartotojų skaičiaus augimas prasidėjo nuo 2001 m. pabaigos, o 2003 m. pradžioje, palyginti su 2001 metais, jau buvo išaugęs dvigubai (iki 200 vartotojų per mėnesį). Per daugiau negu dešimt metų atliekant tekstyno pildymo, administravimo bei analizės darbus, įgyta daug patirties, kaupiama vis solidesnė duomenų bazė, o tai savo ruožtu sudaro vis daugiau sąlygų Lietuvoje plėtotis tekstynų lingvistikai. Per dešimtmetį Tekstynas tapo visuotinai pripažintu įvairialypiu duomenų šaltiniu, Lietuvos interneto kultūros dalimi.

ENCompilation of the Textbook of Modern Lithuanian Language was started 10 years ago at the VMU’s Centre of Computer Linguistics. The new publication was due to the language research methods resulting from new technologies, application of which needed a database of authentic examples of written Lithuanian language. Using the criteria of size, representation and continuity, the article discusses problem areas related with the structure of the Textbook, briefly presents search opportunities and future guidelines. The online version of the Textbook has already exceeded 100 million words and is supplemented by another 10 million words every year. The Textbook stores original-language texts of the independence period, Lithuanian translations of philosophic literature, other translations of fiction, scientific and educational literature. The VDU Textbook uses the universal software – a package of software tools WordSmith Tools prepared by Mike Scott and CUE (Corpus Universal Examiner), as well as an interface tailored for Lithuanian language. Broad application of the Textbook is indicated by the ever-growing number of users and queries. The sharp rise in the number of users started in the end of 2001 and had doubled to 200 users per month by early 2003, as compared with 2001. More than a decade of supplement, administration and analysis of the textbook has enabled specialists to gain extensive experience and accumulate a substantial database, which facilitates the development of textbook linguistics in Lithuania. Over the decade of existence, the Textbook has evolved into a recognised versatile resource and part of Internet culture in Lithuania.

ISSN:
2081-6839
Related Publications:
Permalink:
https://www.lituanistika.lt/content/1191
Updated:
2013-04-28 15:26:30
Metrics:
Views: 32
Export: