Tekstų nehomogeniškumo tyrimas naudojant žymeklius

Lapėnaitė-Gedvilė, Monika; Piaseckienė, Karolina; Radavičius, Marijus

Tekstų nehomogeniškumo tyrimas naudojant žymeklius

Direct Link:

Open Access (CC) BY-NC

Collection:

Mokslo publikacijos / Scientific publications

Document Type:

Žurnalų straipsniai / Journal articles

Language:

Lietuvių kalba / Lithuanian

Title:

Tekstų nehomogeniškumo tyrimas naudojant žymeklius

Alternative Title:

Analysis of text non-homogeneity using markers

Authors:

In the Journal:

Lietuvos statistikos darbai Lithuanian journal of statistics, 2015, 54, 1, 92-100

Summary / Abstract:

LTStraipsnio tikslas – įvertinti tekstų statistinį nehomogeniškumą pagal funkcinių žodžių ir kitų lingvistinių elementų vartoseną. Atliktas empirinis tyrimas remiasi mokykloms rekomenduojamų suskaitmenintų grožinės literatūros kūrinių biblioteka http://ebiblioteka.mkp.emokykla.lt. Apskaičiuojami sudarytų dažnų žodžių formų ar kitų kalbinių struktūrų rinkinių, juos vadinsime žymekliais, dažnumai tekstų blokuose, jungiančiuose 50 iš eilės einančių sakinių. Pastebėta, kad žymeklių dažnumai blokuose turi ženklią perteklinę sklaidą, palyginti su lingvistikoje įprastu homogeniškumo modeliu. Pasirinktoms žymeklių grupėms parinkti kelių tipų hierarchiniai binominės logistinės regresijos modeliai, naudojantys autoriaus identifikatorių, bloko ilgį ir likusių žymeklių dažnius blokuose kaip aiškinančiuosius kintamuosius, leido paaiškinti didelę dalį pasirinktųjų žymeklių perteklinės sklaidos.

ENThe aim of the paper is to assess the distributional non-homogeneity of texts in the usage of functional words and other linguistic units. Our empirical study is based on recommended school fiction works taken from a digital library at http://ebiblioteka.mkp.emokykla.lt. Sets of frequent word forms, called markers, are made, and their frequency counts in blocks of 50 successive sentences are calculated. The frequency counts of the markers show significant excess variability (overdispersion) with respect to a text homogeneity model usually assumed in linguistics. For chosen markers, different kinds of hierarchical binomial logistic regression models with the author's identifier, the block length and the frequency counts of the remaining markers as explanatory variables are fitted to the block data in order to explain the observed overdispersion of the markers chosen.

ISSN:

1392-642X; 2029-7262

Subject area:

Kalbotyra / Linguistics

Related Publications:

Automatizuotas lietuvių kalbos morfologinio daugiareikšmiškumo ribojimas. Kalbų studijos 2006, 9, 30-37.
Common words as indicators of text functions. Prace bałtystyczne: język, literatura, kultura 2006, 3, 213-222.
Daiktavardžio ir jo gramatinių formų vartojimo dažnis lietuvių kalbos stiliuose. Kalbos istorijos ir dialektologijos problemos. 1. Vilnius: Lietuvių kalbos institutas, 2005. P. 379-393.
Idiolekto požymiai elektroniniuose laiškuose. Vilnius, 2012. 189 p.
Idiolekto požymiai elektroninių laiškų leksikoje. Kalbotyra 2011, 63 (3), 149-164.
Labai dažnų lietuvių kalbos žodžių ir žodžių formų ypatybės.. Lituanistica 2005, 1, 48-55.
Morfologinis dabartinės lietuvių kalbos tekstyno anotavimas. Kalbų studijos 2007, 11, 30-35.
Sakinių ilgis – publicistinio ir šnekamojo stiliaus sandūros tekstuose požymis. Kalbotyra 2010, 62 (3), 95-107.
Seimo posėdžių stenogramų tekstynas autorystės nustatymo bei autoriaus profilio sudarymo tyrimams. Kalbotyra 2014, 66, 27-45.
Skiemenų statistikos taikymas atskiriant poeziją nuo prozos. Lietuvos statistikos darbai 2022, 61, 32-45.
Spaudos tekstų heterogeniškumas funkcinių stilių sandūros aspektu. Kalbotyra 2005, 55 (3), 38-46.
Šnekamosios lietuvių kalbos morfologinės ypatybės. Acta linguistica Lithuanica 2009, 60, 1-15.
Tiesioginė šnekamojo stiliaus kalba - spaudos tekstų konversacionalumo požymis. Filologija 2006, 11, 48-56.

Permalink:

https://www.lituanistika.lt/content/79494

Updated:

2026-02-25 13:51:08

Metrics:

Views: 160 Downloads: 3

Export:

Choose type:

Download

User ID:
User Password: