Tekstynų lingvistika : teorija ir praktika

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Tekstynų lingvistika: teorija ir praktika
Alternative Title:
Corpus linguistics in theory and practice
In the Journal:
Darbai ir dienos [Deeds and Days]. 2000, t. 24, p. 7-64. Tekstynų lingvistika
Notes:
Reikšminiai žodžiai: Dabartinės lietuvių kalbos tekstynas; Informacinės technologijos; Kalbotyros šaka; Konkordansas; Lingvistika; Sąrašas; Tekstas; Tekstynai; Tekstynų lingvistika; Tekstynų tipai; Branch of linguistic; Concordance; Corpus; Corpus linguistics; Corpus of present day Lithuanian; Information technology; Linguistics; List; Text; Types of corpora.
Keywords:
LT
Dabartinės lietuvių kalbos tekstynas; Kalbotyros šaka; Konkordansas; Lingvistika; Sąrašas; Technologijos / Technologies; Tekstas; Tekstynai; Tekstynų lingvistika; Tekstynų tipai.
EN
Branch of linguistic; Concordance; Corpus linguistics; Corpus of present day Lithuanian; Corpus; Linguistics; List; Text; Types of corpora.
Summary / Abstract:

LTStraipsnyje, siekiant atskleisti tekstynų lingvistikos (TL) savitumą, aptariami kompiuteriniai tekstynai ir jų programinė įranga, taip pat gauti produktai – dažniniai sąrašai ir konkordansai bei jų tyrimo ypatumai, iliustruojami daiktavardžio apatija analize. Straipsnyje taip pat kalbama apie TL statusą, jos slinktį nuo metodologijos link teorijos, sąlytį ir prieštarą kitoms kalbos mokslų teorijoms, TL postuluojamas savąsias teorines nuostatas, jos naudą kitoms humanitarinių ir tiksliųjų mokslų šakoms bei informacinių technologijų praktikai, TL svarbą XXI a. informacinei visuomenei. Darbo su tekstynų ypatumai yra nulemti automatinių tekstų lemavimo, anotavimo ir sintaksinės analizės programų rezultatų, taip pat lietuvių kalbos specifikos: fleksinė jos prigimtis reikalauja atsižvelgti į jos žodžių, ypač centrinių, tiriamųjų, formas, o laisva žodžių tvarka sakinyje neleidžia susitelkti tik į kelias kontekstinių partnerių pozicijas tiriamojo žodžio atžvilgiu. Šios savybės smarkiai padidina tiriamųjų kalbos vienetų ir jų kolokatų gramatinę įvairovę bei sintaksinę jų distribuciją, o tai savo ruožtu užmaskuoja leksinius, semantinius, gramatinius bei pragmatinius žodžių vartosenos ypatumus, todėl tekstyno analizės modelį kiekvienam reikia susikurti pačiam. Kalbant apie TL statusą, laikomasi nuostatos, kad tekstynų lingvistika yra iš esmės deskriptyvioji kalbotyra, kuriai naudojamos naujos technologijos. TL rūpi tie patys dalykai kaip ir visai kalbotyrai: kalbos ir atskirų jos vienetų prigimtis, struktūra, funkcijos, vartosena, kalbos išmokimas, jos reiškinių įvairovė ir raida.

ENThe paper, in purpose of revealing the peculiarity of corpus linguistics (CL), discusses computer corpora and software as well as their products: frequency lists, concordances and specificities of studying them under analysis of the noun "apatija" (apathy). The article also talks about the CL status, its shift from methodology towards theory, contact and contradiction to other theories of linguistics, theoretical approaches postulated by CL, its benefit for other branches of the humanities and exact sciences as well as for practice of information technology, and the importance of the CL for the information society of the 21st century. Characteristics of managing corpus are determined by automatic outcomes of text lemmatizing, annotation and syntactic analysis programmes, as well as the Lithuanian language specifics: its inflectional nature requires to take into consideration its words, especially centric and exploratory ones, and forms, but free word order in the sentence does not allow to focus on just a few positions of contextual partners in relation to the investigated word. These characteristics dramatically increase grammatical variety of investigated units of language and their collocations, as well as their syntactical distribution, which in turn masks lexical, semantic, grammatical and pragmatic peculiarities words' usage, thus the corpus analysis model needs to be created individually. Considering CL status, there is presumption that corpus linguistics is basically descriptor linguistics, which uses the new technologies. The concerns of CL are the same as for overall linguistics: nature of language and its individual units, structure, functions, usage, language acquisition, its variety of expressions and development.

ISSN:
1392-0588; 2335-8769
Related Publications:
Permalink:
https://www.lituanistika.lt/content/37789
Updated:
2019-12-07 17:46:54
Metrics:
Views: 420    Downloads: 168
Export: