Mokomasis lietuvių kalbos vartosenos leksikonas – nauja tekstyno pagrindu parengta leksinė bazė

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
Mokomasis lietuvių kalbos vartosenos leksikonas – nauja tekstyno pagrindu parengta leksinė bazė
Alternative Title:
New corpus-driven lexical database for Lithuanian as a foreign language
In the Journal:
Darnioji daugiakalbystė [Sustainable Multilingualism]. 2022, 20, p. 154-193
Keywords:
LT
Lietuvių kalba / Lithuanian language; Tekstynai / Corpus.
Summary / Abstract:

LTŠiame straipsnyje pristatomas tekstynų lingvistikos metodu parengtas lietuvių kaip svetimosios kalbos mokymui ir mokymuisi skirtas išteklius – Mokomasis lietuvių kalbos vartosenos leksikonas. Tai – pirma tokio pobūdžio lietuvių kalbos leksinė bazė, kurios antraštynas ir žodžių vartosenos aprašas pagrįstas konkrečiu tekstynu – Mokomojo tekstyno rašytine dalimi (ją sudaro apie 620 tūkst. žodžių, sakytinės dalies dydis – 50 tūkst. žodžių). Leksikone pateikta 3 700 vienažodžių ir keliažodžių leksinių vienetų (sudėtinių pavadinimų, frazeologizmų, posakių). Dažniausiems ir visuose A1–B2 kalbos lygiuose pavartotiems žodžiams (jų yra apie 700) parengti ilgieji aprašai – juose pateikiami su konkrečiomis reikšmėmis susieti vartosenos modeliai, kuriuose užfiksuota leksinė, semantinė ir gramatinė informacija. Kiekvienam vartosenos modeliui pateikta pavyzdžių, kuriais iliustruoti visi modeliuose užfiksuoti vartosenos požymiai. Retesniems dariniams (vediniams ir dūriniams), pavartotiems tekstyne ir susijusiems su dažniausiais antraštyno žodžiais, parengti trumpieji aprašai su pavyzdžiais. Iš viso leksikone yra 2 542 dariniai, susieti su 940 pamatinių žodžių. Visiems antraštyno leksiniams vienetams pateikiama 28 550 pavyzdžių, skirtų produkciniams gebėjimams ugdyti.Straipsnyje išsamiai aptariami Mokomojo lietuvių kalbos vartosenos leksikono požymiai, privalumai ir trūkumai, daug dėmesio skiriama adaptuotam vartosenos modelių metodui pristatyti. Tikimasi, kad ši leksinė bazė, tobulinama pagal vartotojų poreikius, užpildys dažną esamų lietuvių kalbos leksikografinių išteklių spragą – gerų produkavimui skirtų pavyzdžių stoką, o kartu su esamais ištekliais – vadovėliais, žodynais ir tekstynais – bus naudingas mokymo ir mokymosi šaltinis pažengusiųjų kalbos vartotojų grupei. Pagrindinės sąvokos: leksikonas; vartosenos modelių metodas; tekstynas; tekstynų lingvistika; mokomoji leksikografija; lietuvių kalba. [Iš leidinio]

ENIn this paper, we describe a new lexicographic resource for advanced learners of Lithuanian, the Lexical Database of Lithuanian Language Usage, which is the first attempt in Lithuanian lexicography to prepare a description of vocabulary based on the word usage analysis in the particular corpus. The written subpart of the Lithuanian Pedagogic Corpus (approx. 620,000 tokens) was used to develop headword lists and collect word usage information in the form of corpus patterns. In the database, there are 3,700 lexical items, words and multi-word units (compounds, idioms or sayings). For the appr. 700 most frequent words from a shared vocabulary (they appear in texts assigned to A1, A2, B1 and B2 levels, and their frequency in the whole corpus is 100 occurrences and above), we prepared a full-record entry: it includes sense-related corpus patterns with grammatical, semantic and lexical information and the examples illustrating all pattern components. The short-record entry (no patterns, only examples) is prepared for the less frequent words from the shared vocabulary, which are derivationally related to the most frequent headwords. The users are provided with 2,542 derivatives, which are linked to 940 headwords. In the database, 28,550 encoding examples are manually selected for all 3,000 headwords and 700 phrases. We discuss the features of the database, and, particularly, the adopted semi-automated procedure of Corpus Pattern Analysis, which was used for the description of word usage.We evaluate the approach applied,and discuss its advantages for users as well as provide the suggestions for the future improvements of the resource, which can be used as an additional resource in the classroom of Lithuanian as a foreign language, and, together with the available corpora, fill in a gap of usage information in the existing (learner) dictionaries. Keywords: Lexical database; Corpus Pattern Analysis; corpus; corpus linguistics; learner lexicography; Lithuanian language. [From the publication]

DOI:
10.2478/sm-2022-0007
ISSN:
2335-2019; 2335-2027
Related Publications:
Permalink:
https://www.lituanistika.lt/content/98534
Updated:
2022-11-03 16:46:23
Metrics:
Views: 30    Downloads: 7
Export: