- Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi
- Volume:37 Issue:3
- Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler
Döküman dili tanıma için içerik bağımsız yeni bir yaklaşım: Açı Örüntüler
Authors : Tuba NOYAN, Fatma KUNCAN, Ramazan TEKİN, Yılmaz KAYA
Pages : 1277-1292
Doi:10.17341/gazimmfd.844700
View : 17 | Download : 7
Publication Date : 2022-02-28
Article Type : Research Paper
Abstract :Metin madenciliğinde dil tanıma (DT), bir belgenin veya bir kısmının yazıldığı doğal dili algılama çalışmasıdır. Bu çalışmada, karakterlerin UTF-8 değerleri arasında kalan açı bilgisini kullanan metinden yeni bir dil tanıma yaklaşımı önerilmiştir. Önerilen açı yöntemi metinlerden öznitelik çıkarımı için kullanılmıştır. Açı örüntüler yöntemi istatistiksel bir yaklaşımdır. Önerilen yaklaşımı test etmek amacıyla çeşitli şekillerde oluşturulan dört veri setinin kullanılması kararlaştırılmıştır. Elde edilen öznitelikler Rastsal Orman (RO, RF, Random Forest), Destek Vektör Makinesi (DVM, SVM, Support Vector Machine), Liner Diskriminant Analiz (LDA, Linear Discriminant Analysis), Naive Bayes (NB) ve k-en yakın komşu (Knn, k-nearest neighbors) olmak üzere farklı sınıflandırma yöntemleri kullanılmıştır. Dört farklı veri seti kümesinden belirlenen DT başarım sonuçları sırası ile %96,81, %99,39, %93,31 ve %98,60 olarak gözlenmiştir. Yapılan çalışma sonucunda ulaşılan başarım sonuçlarına göre önerilen açı örüntüler yönteminin DT uygulamasında önemli ayırt edici bilgiler verdiği belirlenmiştir.Keywords : Metin tabanlı dil tanıma, Doğal dil işleme, Açı örüntüler, Öznitelik çıkarma