- Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
- Volume:31 Issue:4
- Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler
Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler
Authors : Yılmaz KAYA, Ömer Faruk Ertuğrul
Pages : 0-0
Doi:10.17341/gazimmfd.278463
View : 17 | Download : 4
Publication Date : 2016-12-14
Article Type : Research Paper
Abstract :Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.Keywords : metin tabanlı dil tanıma, yerel ikili örüntüler, doğal dil işleme