Corpora of spoken Lithuanian

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Corpora of spoken Lithuanian
Alternative Title:
Leedu suulise keele korpused
In the Journal:
Notes:
LDB Open.
Keywords:
LT
Gramatinis išlyginimas; Gramatinė anotacija; Leksika; Lietuvių kalba; Sakytinės kalbos tekstynas; Suaugusiųjų kalba; Vaikų kalba; Vaikų pašnekesiai su suaugusiaisiais; Vaikų pašnekesiai su vaikais; Šnekamosios kalbos tekstynas; Žodynas
EN
Adult-directed speech (ADS); Child speech (CS); Child-directed speech (CDS); Child-directed speech (CDS), child speech (CS), Lithuanian; Corpus of spoken language; Grammatical annotation; Grammatical disambiguation; Lexicon; Lithuanian
Summary / Abstract:

LTStraipsnyje aptariama šnekamosios lietuvių kalbos tekstyno raida. Analitinėje tyrimo dalyje, atsižvelgiant į šaltinius, kurie išėjo duomenų rinkimo metu, transkripciją ir šifravimą, aptarti vaiko kalbos (monologo) ir suaugusiųjų pokalbių duomenys. Antrojoje straipsnio dalyje pristatoma duomenų analizė ir pateikiami preliminarūs rezultatai. Suaugusiems adresuotos, vaikams adresuotos kalbos ir vaikų kalbos duomenys yra analizuojami siekiant nustatyti kalbos dalių paplitimo dažnumą. Šnekamoji kalba yra palyginta su rašomąja kalba, kad būtų galima stebėti vartojimo tendencijas. Pagrindiniai skirtumai ir panašumai tarp šnekamosios kalbos įrašų taip pat yra aptarti. Lingvistiniu požiūriu šis preliminarus tyrimas, paremtas tekstyno duomenimis, parodė skirtumus tarp šnekamosios ir rašomosios kalbos, ypatingai kabos dalių paplitimo požiūriu. Siekiant atskleisti skirtingų šnekamosios kalbos įrašų ypatumus, išsamiau buvo analizuojama linksnio kategorija. Tam tikrų žodžių skirtingų linksnių formų paplitimo dažnumas atspindi lietuvių kalbos linksnio kategorijos prigimtį, t. y. kiekvieno linksnio žymėtumo laipsnį. Kita vertus, daiktavardžių semantika yra esminis faktorius, kuris veikia linksnių formų dažnumą. Dėl to tolimesnis linksnio kategorijos semantikos tyrimas yra būtinas, kad paaiškėtų sąsajos tarp formos ir reikšmės. Tolimesnis sisteminis šnekamosios kalbos tekstyno tyrimas suteiks daugiau galimybių identifikuoti, įvertinti, nustatyti ir pakeisti lietuvių kalbos raidą.

ENThe paper discusses the development of spoken Lithuanian corpora. In the analytical part longitudinal child language data as well as adult conversations are discussed in view of the issues that occurred during the period of data collection, transcription and coding. The data are transcribed and coded according to the requirements of CHILDES. The second part of the paper presents a corpus based analysis and provides preliminary results. The data of adult-directed speech, child-directed speech and child speech are analysed to reveal the frequency distribution of parts of speech. Spoken language is compared to written language in order to observe the tendencies of usage. The main differences and similarities within the spoken language registers are discussed as well. [From the publication]

ISSN:
2228-0677
Related Publications:
Permalink:
https://www.lituanistika.lt/content/30601
Updated:
2020-10-25 20:10:02
Metrics:
Views: 9    Downloads: 2