Common words as indicators of text functions

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Anglų kalba / English
Title:
Common words as indicators of text functions
In the Journal:
Keywords:
LT
Tekstynai; Faktorių analizės metodas; Teksto funkcijos; Dažnas žodis; Žodžio forma.
EN
Corpus; Method of factor analysis; Text functions; Common word; Word-form.
Summary / Abstract:

LTŠis straipsnis yra empirinis tekstynų lingvistikos darbas, kuriame tekstų tipologijos pradinė medžiaga yra tekstynas. Darbo tikslams naudojami 100 mln. žodžių Dabartinės lietuvių kalbos tekstyno pagrindu sukurti du mažesni tekstynai: 25 mln. žodžių Mažasis lietuvių kalbos tekstynas (MLKT) ir 10 mln. žodžių Eksperimentinis tekstynas (ET), subalansuotas žanriniu požiūriu. Šio darbo metodika paremta empiriniais kalbos duomenimis, kurie analizuojami kiekybiškai (faktorių analizės metodu) ir kokybiškai (rezultatų interpretacija). Darbe įrodoma, kad: (i) labai dažnų žodžių formų pasiskirstymas tekstuose yra reikšmingas tekstų funkcijų rodiklis; (ii) faktorių analizės metodu analizuojant labai dažnų žodžių formų ir statistinių požymių pasiskirsymą, galima patikimai nustatyti labai dažnų žodžių formų ir statistinių požymių grupes (funkcines paradigmas), kuriomis reiškiamos tam tikros tekstų funkcijos; (iii) remiantis funkcinių paradigmų pasiskirstymu tekstuose galima automatiškai įvertinti tekstų prototipiškumą nustatytųjų funkcijų atžvilgiu. Pagrindinis darbo rezultatas yra septynios tekstų funkcijos nustatytos pagal labai dažnų žodžių pasiskirstymą tekstuose: spontaniškas ekspresyvumas, naratyvumas, direktyvumas, nespontaniškas ekspresyvumas, apeliatyvumas, deskryptyvumas ir temporatyvumas. [Iš leidinio]

ENThis article is an empirical work of corpus linguistics, in which the initial material of text typology is corpus. For the purposes of the work 100 words are used. Two smaller corpora were created on the basis of the corpus of the contemporary Lithuanian language: Small Corpus of the Lithuanian Language (25 million words) and Experimental Corpus (10 million words) balanced the basis of the genre. The methodology of this work is based on empirical data of the language, which is analysed quantitatively (the method of factor analysis) and qualitatively (interpretation of the results). It is proved in the work that: (i) the distribution of frequent word forms in texts is a significant indicator of text functions; (ii) while applying the method of factor analysis to the distribution of frequent word forms and statistical features, one may credibly determine the groups of frequent word forms and statistical features (functional paradigms) by which certain text functions are expressed; (iii) according to the distribution of functional paradigms in texts it is possible to automatically evaluate the prototypical nature of texts in relation to determined functions. The main result of the work is seven text functions determined according to the distribution of very frequent words in texts: spontaneous expressiveness, narrative, directiveness, non-spontaneous expressiveness, appeallativeness, descriptiveness, and temporariness.

ISSN:
2081-6839
Related Publications:
Permalink:
https://www.lituanistika.lt/content/8463
Updated:
2013-04-28 16:46:47
Metrics:
Views: 65
Export: