Daugiaklasių duomenų klasifikavimo metodų tyrimas

Collection:
Mokslo publikacijos / Scientific publications
Document Type:
Žurnalų straipsniai / Journal articles
Language:
Lietuvių kalba / Lithuanian
Title:
Daugiaklasių duomenų klasifikavimo metodų tyrimas
Alternative Title:
Researh of multi-label data classification solutions
In the Journal:
Jaunųjų mokslininkų darbai, 2022, 2 (52), 50-59
Summary / Abstract:

LTStraipsnyje analizuojama, kokią įtaką lietuvių kalba rašytų tekstų, turinčių kelias klases, klasifikavimui turi pasirinktas modelio taikymo būdas. Pristatomas daugiaklasių lietuvių kalba rašytų duomenų klasifikavimo metodų tyrimas, kurio metu atlikta duomenų klasifikavimo metodų taikymo tikslumo lietuvių kalba rašytų daugiaklasių tekstų automatiniam klasifikavimui analizė. Apžvelgiami klasifikavimo metodai, vertinimo kriterijai, jų panaudojimo galimybės ir duomenų paruošimo klasifikavimui principai. Parengus tekstinius duomenis klasifikavimo uždaviniams spręsti, tyrimui buvo suformuoti 44 klasifikatorių deriniai ir atliktas klasifikavimas, naudojant tris skirtingus daugiaklasių duomenų klasifikacijos metodus: kategorijų nustatymo, priklausymo kiekvienai kategorijai ir kategorijų kombinacijos nustatymo. Rezultatai lyginami laiko ir klasifikavimo tikslumo aspektais, nustatant geriausių rezultatų pasiekusius klasifikatorius ir įvardijant naudotų klasifikavimo būdų skirtumus bei privalumus. Prasminiai žodžiai: daugiaklasis klasifikavimas, lietuvių kalba, daugiaklasiai tekstiniai duomenys, teksto klasifikacija, kategorijų nustatymo metodas, priklausymo kiekvienai kategorijai metodas, kategorijų kombinacijos nustatymo metodas.

ENThe article analyzes the impact of the chosen method of model application on the classification of multi-label texts written in the Lithuanian language. The article presents a study of mult-label data classification methods in Lithuanian, which includes an analysis of the accuracy of the application of data classification methods for the automatic classification of multiclass texts written in Lithuanian. The classification methods, evaluation criteria, their applicability and the principles of data preparation for classification are reviewed. After preparing the text data for classification tasks, 44 combinations of classifiers were formed for the study and classification was performed using 3 different methods of multi-label data classification: category detection, category membership and category combination detection. The results obtained are compared in terms of time and classification accuracy, identifying the best performing classifiers and identifying the differences and advantages of the classification methods used. Keywords: multi-label classification, the Lithuanian language, multi-label text data, text classification, category detection method, category membership method, category combination detection method.

DOI:
10.15388/JMD.2022.2.5
ISSN:
1648-8776
Permalink:
https://www.lituanistika.lt/content/109474
Updated:
2026-02-25 13:53:34
Metrics:
Views: 19
Export: