Šiuolaikiniai tekstynai ir pagrindinės jų kūrimo tendencijos

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Knygos dalis / Part of the book
Language:
Lietuvių kalba / Lithuanian
Title:
Šiuolaikiniai tekstynai ir pagrindinės jų kūrimo tendencijos
Alternative Title:
Modern text corpora and main tendencies of their creation
Keywords:
LT
Internetas / Internet.
Summary / Abstract:

LTStraipsnyje apžvelgiami šiuolaikiniai tekstynai ir pagrindinės jų kūrimo tendencijos. Didelių tekstų tyrimai prasidėjo 1980-ųjų pabaigoje - 1990-ųjų metų pradžioje atsiradus šiuolaikinei elektroninei skaičiavimo technikai. Tuo laikotarpiu prasidėjo ir įvairių tekstynų kūrimas, įskaitant lietuvių kalbos tekstyną. Ilgą laiką jie buvo prieinami tik siauram specialistų ratui. Be to, jų naudojimo galimybės buvo gana ribotos. 1998 m. pasirodė „Dabartinės lietuvių kalbos tekstynas“ (toliau – DLKT) – tai svarus indėlis plėtojant elektronines technologijas Lietuvoje. Per praėjusius dešimt metų buvo sukurta ir elektroninėje erdvėje patalpinta daug įvairių tipų ir kalbų tekstynų. Tekstynai tapo svarbia filologinės, statistinės, sociologinės ir kitokios kalbos vienetų analizės priemone. Absoliuti dauguma tekstynų yra laisvai prieinami eiliniam interneto vartotojui, tačiau naudojimasis kai kuriais tekstynais gali būti mokamas. Pirmieji sukurti tekstynai (įskaitant DLKT) buvo bendro pobūdžio, vėliau atsirado įvairūs specialieji tekstynai (laikraščių, Biblijos kalbos, šnekos, istoriniai, tam tikros mokslo šakos kalbos ir t. t.). Pagal paskirtį visi tekstynai yra skirstomi į vienakalbius, dvikalbius ir daugiakalbius tekstynus. Bendri visų tekstynų kūrimo principai yra panašūs, tačiau kai kurie iš jų pasižymi technologinėmis naujovėmis. Tokie tekstynai gali atlikti paiešką trimatėje erdvėje, jie turi sudėtingą filtrų sistemą ir pan. Skirtingų tekstynų kūrimo patirtis ir naujausios informacinės technologijos gali būti sėkmingai panaudotos tolesniam DLKT tobulinimui.Reikšminiai žodžiai: Duomenų bazė; Internetas; Kalbiniai ištekliai; Kompiuterinis tekstynas; Tekstynai; Tekstynas; Tekstynų lingvistika; Šiuolaikinė lietuvių kalba; Computer corpus; Corpora; Corpus; Corpus linguistics; Data basis; Internet; Language resources; Modern Lithuanian language; Text corpus.

ENIn the last decade, there have been created a lot of text corpora which represent different types and various languages. The text corpus of the Modern Lithuanian was created in 1998 and made a prominent contribution into the development of informational technologies in Lithuania. The text corpora have become an important means of philological, statistical, sociological and other kinds of the analysis of words. The article regards modern text corpora and main tendencies of their creation. The absolute number of text corpora has become available free of charge on the Internet, while some of them remain to be payable. The first text corpora (incl. the text corpus of the Modern Lithuanian) have been elaborated for general use. Later there appeared a number of special text corpora - historical, speech, scientific (e. g., molecular-biological), of newspapers' language, Bible texts and so on. All text corpora can be divided into monolingual, bilingual and multilingual. The common principles of all corpora are almost the same, but the most advanced of them use the modern informational technologies - 3D-search, a complicated system of filters and others. The study of experience that has been gained by creation of different text corpora and of technical innovations can be successfully used for the further development of text linguistics and improvement of the existing text corpora. [text from author]

Related Publications:
Permalink:
https://www.lituanistika.lt/content/25805
Updated:
2013-05-27 16:48:25
Metrics:
Views: 34
Export: