- Journal of Investigations on Engineering and Technology
- Volume:4 Issue:2
- Kısa Metinleri Yazıldıkları Dile Göre Sınıflandırma ve Farklı Öznitelik Seçim Yöntemlerinin Uygulanm...
Kısa Metinleri Yazıldıkları Dile Göre Sınıflandırma ve Farklı Öznitelik Seçim Yöntemlerinin Uygulanması
Authors : Murat ASLANYÜREK, Altan MESUT
Pages : 36-46
View : 11 | Download : 7
Publication Date : 2021-12-31
Article Type : Research Paper
Abstract :Bu çalışmada Wikipedia makale özetlerinden oluşan farklı boyutlardaki iki veri seti üzerinde dil tanımaya yönelik sınıflandırma işlemi yapılmıştır. A veri seti grubu 204 bayt ve daha kısa makale özetlerinden oluşurken, B veri seti grubu 204 ile 512 bayt arasındaki özetlerden oluşmaktadır. Çalışmadaki birinci hedef kısa metinlerin boyutlarına göre uygun makine öğrenmesi ve öznitelik seçme yönteminin belirlenmesidir. İkinci hedef ise en hızlı ve yüksek doğrulukla sınıflandırma yapan yöntemin tespit edilmesidir. Yapılan testler sonucunda öznitelik seçiminde SelectFromModel-Lojistik Regresyon kullanılması ile en yüksek doğruluk değerine ulaşılırken, makine öğrenmesi yöntemi olarak Naive Bayes Multinominal ve Naive Bayes Bernoilli farklı uzunluktaki veri setlerine göre birbirlerine üstünlük sağlamaktadır. Ayrıca çalışmada kullanılan tüm sınıflandırma yöntemleri ile yapılan testler sonucunda, her iki veri setinde diğer sınıflandırma yöntemlerine göre fasttext’in doğruluk bakımından, KTİY’nin ise hız bakımından üstünlük sağladığı anlaşılmıştırKeywords : Dil tanıma, Fasttext, Langdetect, Makine öğrenmesi