- RumeliDE Dil ve Edebiyat Araştırmaları Dergisi
- Issue:24
- Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR
Lematizasyon ve Türkçe için bir lematizasyon uygulaması: elemanTR
Authors : Bekir Tahir TAHİROĞLU
Pages : 475-486
Doi:10.29000/rumelide.995343
View : 14 | Download : 5
Publication Date : 2021-09-21
Article Type : Research Paper
Abstract :Madde başı insert ignore into journalissuearticles values(lemma); bir dildeki sözcüklerin sözlüklerde yer alan standart biçimi olduğu bilinmektedir. Lematizasyon adı verilen süreç ise çekimli sözcüklerin madde başına indirgeme sürecidir. Lematizasyon çeşitli diller için doğal dil işleme insert ignore into journalissuearticles values(DDİ); araçlarında metinlerin ön işleme aşamasında sözcüklerin farklı yapılarının normal biçimlerine dönüştürülmesinde kullanılmakla birlikte, dilbilimsel açıdan sözcük ailelerinin otomatik oluşturulması ve özellikle sözlüklerin hazırlanmasında büyük kolaylıklar sağlamaktadır. Milyon sözcüklük bir derlemdeki tüm sözcüklerin madde başı biçimlerine otomatik ve doğru biçimde indirgenmesi hem zaman hem de emek yoğun işlemlerin verimli olarak yapılmasını sağlamaktadır. Lematizasyon işlemi, sözcüklerin kullanım sıklığına bağlı çözümlemelerde de çekimli biçimlerin ayrı sayımından kaynaklanan zaman kaybını da gidererek ilgilenilen metnin veya derlemin anahtar kavramlarını çok kısa sürede ortaya çıkarmaktadır. Bu çalışmada, genel olarak lematizasyon üzerinde durulmuş ve Türkçe için bağlam duyarlı olarak hazırlanan ve elemanTR adı verilen bir lematizasyon uygulama modeli tanıtılmıştır. Türkçe 184 adet roman ve hikaye metinlerinden hazırlanan yaklaşık 1 milyon 200 bin cümleyle makine öğrenmesiyle eğitilen modelde elde edilen başarım test verilerinde %99, 01 olarak bulunmuştur. Elde edilen bu başarım oranının eğitim verisine yeni eklenecek verilerle sürdürülebilir bir yapıya kavuşturularak genel bir Türkçe lematizasyon uygulamasının ileri çalışmalar için ön ayak olacağı düşünülmektedir. Otomatik söz türü belirleme, sözdizimsel çözümleme ve yeni sözcüklerin otomatik belirlenmesinde de eğitilen modelin yararlı olacağı ön görülmektedir.Keywords : Lema, lematizasyon, söz varlığı, doğal dil işleme, yapay öğrenme