Syntactically coded corpus of spoken Lithuanian: developmental issues and pilot studies

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Syntactically coded corpus of spoken Lithuanian: developmental issues and pilot studies
Alternative Title:
Sintaksiškai anotuotas Sakytinės lietuvių kalbos tekstynas: metodiniai aspektai ir žvalgomieji tyrimai
In the Journal:
Kalbų studijos [Studies About Languages]. 2016, Nr. 28, p. 92-101
Keywords:
LT
Šnekamoji kalba / Spoken language; Žodžių jungimas. Sakiniai. Sakinio dalys / Word phrases. Sentences. Sentence parts.
Summary / Abstract:

LTStraipsnyje pristatoma Sakytinės lietuvių kalbos tekstyno (VDU) kūrimo ir sintaksinio anotavimo metodika, aptariamos automatizuotos sintaksinės analizės galimybės. Pirmojoje straipsnio dalyje supažindinama su Tekstyno kūrimo ir tobulinimo metodika bei etapais, aptariamos esminės sintaksinio kodavimo sąvokos. Antrojoje dalyje pristatomi vieno iš žvalgomųjų tyrimų, sutelkto į spontaninės sakytinės lietuvių kalbos klausiamųjų sakinių vartoseną, rezultatai. Atlikus automatizuotą Tekstyne užfiksuotų klausiamųjų sakinių analizę, paaiškėjo, tikrinamojo ir specialiojo klausimo sakiniai tekstyne pasiskirsto daugmaž tolygiai. Tarp tikrinamojo klausimo sakinių (angl. yes/ no questions) vyrauja klausimai be klausiamosios dalelytės, rečiau vartojami klausimai su klausiamąja dalelyte sakinio pradžioje ar pabaigoje. Tarp specialiojo klausimo sakinių (angl. Wh-? questions) vyrauja aplinkybės (ypač – vietos) klausimai. Suprantama, žvalgomasis tyrimas atskleidė tik esmines klausiamųjų sakinių, vartojamų spontaninėje lietuvių kalboje, ypatybes, tad ateityje planuojama šį tyrimą išplėsti tarpusavyje lyginant atskiras tekstyno dalis ir ieškant žanro (pvz., monologo vs. dialogo), kalbėtojo socialinių charakteristikų bei pokalbio situacijos (pvz., viešosios vs. privačios kalbos) poveikio klausiamųjų sakinių vartosenai. Sintaksiškai anotavus Sakytinės lietuvių kalbos tekstyną, atsivėrė galimybė atlikti automatizuotą sintaksinę šios duomenų bazės analizę, tad tikimasi ateityje išplėtoti kiekybinius natūralios sakytinės lietuvių kalbos sintaksės tyrimus. [Iš leidinio]Reikšminiai žodžiai: Kalbos tekstynas; Klausiamieji sakiniai; Sakytinės lietuvių kalbos tekstynas; Sintaksinis anotavimas; Sintaksinis kodavimas; Sintaksė; Specialiojo klausimo sakiniai; Spontaninė kalba; Tikrinamojo klausimo sakiniai; Corpus linguistics, syntax, syntactic coding, interrogatives, Lithuanian; Corpus of Spoken Lithuanian; Interrogatives; Spontaneous speech; Syntactic coding; Wh- questions; Yes/no questions.

ENThe paper deals with the main methodological issues of development of the Corpus of Spoken Lithuanian with particular attention to its syntactic coding and applications for automatized language analysis. First, we consider a methodology of development of the Corpus as well as the principles of transcribing and coding Lithuanian speech data. The main concepts, such as “utterance” “sentence”, etc. are discussed. Second, we present results of a pilot study in interrogatives that are typical for natural spontaneous spoken Lithuanian. Results of the automatized analysis of interrogatives revealed that a frequency and distribution of the Wh- and yes/ no questions is rather similar. Among the Wh- questions, the questions non-containing the interrogative particle seem to be dominant, while the questions containing the interrogative particle at the beginning ot at the end were much rarer. Among the different functional subtypes of Wh- questions, adverbial ones seem to be the most freequent; among the adverbial Wh- questions, the spatial ones were the most frequent. Certainly, the present study is rather pilot due to the novelty of automatized syntactic approach to the data of spoken Lithuanian, thus much more complex studies still await for future investigations. A use of interrogative sentences will be studied from the perspective of different genres (e.g., monologue vs dialogue), social characteristic of the speakers, and a situation of conversation (e.g., public vs private speech). Generally, we believe that future systematic corpus-based research of spontaneous spoken language will give more possibilities to identify, evaluate, and elaborate the development of the Lithuanian language. [From the publication]

DOI:
10.5755/j01.sal.0.28.15131
ISSN:
1648-2824; 2029-7203
Related Publications:
Permalink:
https://www.lituanistika.lt/content/56640
Updated:
2020-10-25 20:26:35
Metrics:
Views: 29    Downloads: 3
Export: