A Comparative Assessment of Text-independent Automatic Speaker Identification Methods Using Limited Data

Mandana FASOUNAKİ; Emirhan Burak YÜCE; Serkan ÖNCÜL; Gökhan İNCE

doi:10.31590/ejosat.950218

A Comparative Assessment of Text-independent Automatic Speaker Identification Methods Using Limited Data

Authors : Mandana FASOUNAKİ, Emirhan Burak YÜCE, Serkan ÖNCÜL, Gökhan İNCE

Pages : 217-222

Doi:10.31590/ejosat.950218

View : 16 | Download : 10

Publication Date : 2021-07-31

Article Type : Conference Paper

Abstract :Otomatik Konuşmacı Tanıma, sinyal işlemedeki aktif araştırma alanlarından biridir. Bu amaçla çeşitli makine öğrenme algoritmaları kullanılmıştır. Donanım teknolojilerindeki ve veri birikimindeki son gelişmelerle birlikte, Derin Öğrenme yöntemleri, çeşitli sınıflandırma ve tanımlama görevlerinde en son teknolojiye sahip yeni yaklaşım haline gelmiştir. Bu makalede, metinden bağımsız, kapalı-küme otomatik konuşmacı tanımlama için Gauss Karışım Modeli-Evrensel Arka Plan Modeli (GMM-UBM) gibi geleneksel yöntemlerin ve Faktörize Zaman Gecikmeli Sinir Ağı ve Evrişimli Sinir Ağları gibi derin öğrenme tabanlı tekniklerin performansını değerlendiriyoruz. Bu karşılaştırmalar, farklı koşullara sahip iki veri kümesinde değerlendirildi. Deneysel veri kümelerinden biri LibriSpeech. Bu veri seti çok sayıda konuşmacıdan oluşan sesli kitaplardan toplanan temiz ses sinyallerinden oluşmaktadır. Ayrıca, müşterilerin bir çağrı merkezindeki temsilcilerle doğal konuşmalarından oluşan bir veri kümesi ise bizim tarafımızdan toplandı ve hazırlandı. Çağrı merkezi veri setindeki ses örnekleri sinyal-gürültü oranı düşük ve oldukça sınırlı sayıda ses örnekleri mevut. Konuşmacı sorgulama aşamasındaki konuşma sinyallerinin süresi, otomatik konuşmacı tanımlama yöntemlerinin performanslarını etkileyen önemli bir faktördür. Bu çalışmada, kısa konuşma bölütlerinden otomatik konuşmacı tanımlaması için bir CNN mimarisi önerilmiştir. Mimari tasarımı, iyi bilinen CNN mimarilerine kıyasla düşük sayıda parametre ile optimum bir evrişimsel sinir ağıdır ve konuşma sinyalinin zamansal yapısını yakalamayı amaçlamaktadır. Önerilen CNN tabanlı algoritmanın büyük ve temiz veri setinde daha iyi performans gösterdiğini, buna karşın sınırlı miktarda veriye sahip diğer veri setinde geleneksel yöntemin tüm derin öğrenme yaklaşımlarından daha iyi performans gösterdiğini gözlemledik. Önerilen model tarafından elde edilen doğruluk, LibriSpeech veri setinden 1 saniyelik ses örneklerinde %99,5'tir.
Keywords : konuşmacı tanımlama, derin öğrenme, CNN, Sinyal İşleme, GMM UBM

ORIGINAL ARTICLE URL

VIEW PAPER (PDF)