"Lemuoklis" - morfologinei analizei

Direct Link:
Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Straipsnis / Article
Language:
Lietuvių kalba / Lithuanian
Title:
"Lemuoklis" - morfologinei analizei
Alternative Title:
Morphological analysis with "Lemuoklis"
In the Journal:
Darbai ir dienos [Deeds and Days]. 2000, t. 24, p. 245-274. Tekstynų lingvistika
Notes:
Reikšminiai žodžiai: Antraštinė forma; Daugiaprasmiškumas; Gramatinė kategorija; Gramatinė ypatybė; Kalbos apdorojimas; Kategorija; Lema; Lemavimas; Morfologinė analizė; Žodynas; Žodžio forma; Category; Disambiguation; Grammatical category; Grammatical characteristic; Language processing; Lemma; Lemmatizing; Lexicon; Morphological analysis; Surface form; Word form.
Keywords:
LT
Antraštinė forma; Daugiaprasmiškumas; Gramatinė ypatybė; Gramatinė kategorija; Kalbos apdorojimas; Kategorija; Leksika. Kalbos žodynas / Lexicon; Lema; Lemavimas; Morfologija / Morphology; Žodynas; Žodžio forma.
EN
Category; Disambiguation; Grammatical category; Grammatical characteristic; Language processing; Lemma; Lemmatizing; Morphological analysis; Surface form; Word form.
Summary / Abstract:

LTStraipsnyje supažindinama su „Lemuoklio“ kompiuterine programa, automatiškai lemuojančia lietuviškas žodžių formas iš pradinių tekstinių failų į rezultatinius tekstinius failus. Programa sukurta 2000 m. ir moksliniams lingvistiniams tyrinėjimams automatizuoti. Lemuoklis lemuoja tekstinių failų žodžių formas, įrašydamas lemavimo rezultatus į tekstinius rezultatų failus. Vienos užduoties metu Lemuoklis sulemuoja vieną jam nurodytą pradinį failą į vieną rezultatų failą; po to vartotojas gali užduoti lemuoti kitą pradinį tekstą. Lemuoklis kol kas dar neturi jokių priemonių automatiškai teksto sintaksinei ar semantinei analizei atlikti. Kiekvieną žodžio formą jis nagrinėja atskirai, atsietą nuo konteksto. Vartotojas, analizuodamas lemavimo rezultatų tekstą, turi pats atmesti klaidingas lemavimo hipotezes ir palikti teisingąsias. Žodžių formų lemavimo nevienareikšmiškumas šiuo metu yra didžiausias Lemuoklio trūkumas. Kol kas visiškai panaikinti automatiško lemavimo daugiaprasmiškumą, neturint automatiškos sintaksinių ryšių tarp teksto žodžių analizės priemonių, neįmanoma. Vis dėlto Lemuoklyje įdiegti tam tikri metodai, leidžiantys kai kuriais atvejais sumažinti perteklinį lemavimo rezultato daugiaprasmiškumą. Straipsnyje aprašomi Lemuoklio darbo eiga, lemavimo rezultatuose pateikiama leksinė ir gramatinė informacija, rezultatuose naudojama gramatinės informacijos žymėjimų sistema, lemavimo daugiaprasmiškumo mažinimo būdai. Taip pat straipsnyje lemavimo aspektu supažindinama su kompiuterinio manipuliavimo lietuviškų žodžių gramatinėmis formomis galimybėmis ir problematika.

ENThis paper introduces the software "Lemuoklis" software, which automatically lemmatizes Lithuanian word forms from the original text files into the output text files. The programme was created in 2000 also for the automation of scientific linguistic studies. It lemmatizes word forms of text files by assigning lemmatizing outputs to outputs of text files. By one task "Lemuoklis" lemmatizes one original file into one output file; later the user can have another original text lemmatized. "Lemuoklis" still has no tools for automatic text syntax or semantic analysis. Every word form is explored individually without taking into account the context. The user has to reject false lemmatizing hypotheses and leave true ones himself by analysing text of lemmatizing output. At present, ambiguity of lemmatizing word forms is the main weakness of "Lemuoklis". Meanwhile, there is absolutely no possibilities to eliminate ambiguity of automatic lemmatizing without having tools of automatic analysis of syntactic links between text words. However, particular methods have been implemented in "Lemuoklis". In some cases they allow to reduce excess ambiguity of lemmatizing output. The article describes the process of "Lemuoklis", lexical and grammatical information in lemmatizing output, notation system of grammatical information used in output and reduction methods of lemmatizing ambiguity. It also introduces the potentials and topics of computer manipulation by grammar forms of Lithuanian words in aspect of lemmatizing.

ISSN:
1392-0588; 2335-8769
Related Publications:
Permalink:
https://www.lituanistika.lt/content/37797
Updated:
2018-12-17 10:47:20
Metrics:
Views: 181    Downloads: 22
Export: