Learner corpus annotation in Latvia and Lithuania

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Learner corpus annotation in Latvia and Lithuania
Alternative Title:
Besimokančiojo tekstyno anotavimas Latvijoje ir Lietuvoje
In the Journal:
Darnioji daugiakalbystė. 2015, No. 7, p. 145-159
Keywords:
LT
Anotavimas; Baltijos šalys; Baltų kalbos; Besimokančiojo kalba; Besimokančiųjų tekstynai; Latvija; Lietuva.
EN
Annotation; Baltic States; Baltic languages; Latvia; Learner corpora; Learner language; Lithuania.
Summary / Abstract:

LTBesimokančiųjų tekstynai populiarėja tiek Baltijos šalyse, tiek ir visame pasaulyje. Šio straipsnio tikslas – išnagrinėti, kokios anotavimo rūšys, analizuojant besimokančiojo tekstyną, buvo iki šiol naudojamos Latvijoje ir Lietuvoje bei pateikti tas, kurios būtų tinkamiausios antrosios baltų kalbos naujai sukurtam besimokančiojo tekstynui Esam nagrinėti. Nemaža besimokančiųjų tekstyno tyrimų dalis atliekama be anotavimo. Dažniausiai naudojami anotavimo būdai grindžiami kalbos lygių teorija, t. y. morfologinis ir sintaksinis anotavimas. Kaimyninių šalių tyrėjai bendradarbiauja nedaug, bet kiekvienos šalies kalbininkai prisideda prie bendros veiklos, naudodami panašias anotavimo schemas ir kurdami tam tikrais aspektais palyginamus tekstynus. Antrosios baltiškos kalbos besimokančiojo tekstynas turėtų iš dalies derėti su bendra struktūra. Tam galėtų pasitarnauti kalbos dalių anotavimas ir paprastas sintaksinis anotavimas. Tačiau ir kiti aspektai, kurie dar nėra tokie populiarūs besimokančiojo tekstyno tyrimuose, šiame regione galėtų būti naudingi. Dėl šios priežasties klaidų anotavimas ir lematizavimas taip pat įtraukti į Esam tekstyno anotavimo planą. [Iš leidinio]

ENLearner corpora are gaining popularity in the Baltic States as well as elsewhere in the world. The aim of the article is to discuss what kinds of annotation have been used in learner corpus research in Latvia and Lithuania so far and to describe which ones of them would be most suitable for the newly created learner corpus of the second Baltic language – Esam. A lot of learner corpus research in Latvia and Lithuania is undertaken without any annotation. The most common types of annotation are the ones based on the theory of levels of language – morphological and syntactic annotation. There is little collaboration between researchers of neighbour countries, but linguists of each country collaborate closely with each other using similar annotation schemes and creating corpora that are comparable in some aspects. The learner corpus of the second Baltic language should try to fit in the picture to some extent. Part of speech annotation and simple syntactic annotation could help in that. However, things that have not yet become so popular in learner corpus research in this region could also be useful. Therefore, error annotation and lemmatization have been chosen to be included in the annotation plan of the corpus Esam as well. [From the publication]

ISSN:
2335-2019; 2335-2027
Related Publications:
Permalink:
https://www.lituanistika.lt/content/57711
Updated:
2020-12-31 12:35:35
Metrics:
Views: 16
Export: