- Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi
- Volume:14 Issue:2
- Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama
Metin Benzerliği Algoritmaları ile Veri Tekilleştirme: Oteller Veri Tabanında Bir Uygulama
Authors : Ünzüle KELEŞ, Nevcihan DURU
Pages : 86-98
Doi:10.54525/tbbmd.998983
View : 8 | Download : 6
Publication Date : 2021-12-22
Article Type : Research Paper
Abstract :Hızla ve kontrolsüzce artan veri dünyasında, veri tekilleştirme büyük bir ihtiyaçtır. Veri tekilleştirme, veri tabanında yinelenen verilerin kopyalarını ortadan kaldırmak ya da onları tespit ederek, eşsiz kimlik numarası ile betimlemek için kullanılan bir tekniktir. Oteller veri tabanında; ismi, adresi, acente bilgisi, ve fiyat bilgisi bulunan bir otelin, kayıtlarda farklı isim ve kimlik numaları ile bulunması, karşılaştırma olanağı sunmamaktadır. Rakip analizinin tam anlamıyla yapılabilmesi, rakip fiyat durumlarının bilinmesi ve pazar takibi bütün bu otel isimlerinin tekilleştirilmesi ile mümkündür. Bu çalışmanın amacı, otel isimlerini eşleştirerek, eş olan otelleri tek bir kimlik numarası ile tanımlamak ve tekil veriyi elde etmektir. Veri tekilleştirme için çeşitli metin benzerliği algoritmaları kullanılır. Bu çalışmada, Metin Benzerliği algoritmaları otel isimleri üzerinden karşılaştırılmıştır. Mesafe düzenleme bazlı benzerlik, belirteç bazlı benzerlik, diziliş tabanlı benzerlik algoritmaları ile bulanık dize eşleme algoritmaları incelenmiştir. Çalışmanın sonucunda Bulanık dize eşleme algoritmasının ve Jaro Winkler mesafesinin birlikte kullanıldığı hibrit bir model önerilmiştir.Keywords : Metin Benzerliği, Veri Tekilleştirme, Bulanık Dize Eşleme, Jaro Winkler Mesafesi