- European Journal of Engineering and Applied Sciences
- Volume:1 Issue:2
- Web Veri Çıkarımda Çıkarım Kurallarının İncelenmesi
Web Veri Çıkarımda Çıkarım Kurallarının İncelenmesi
Authors : Erdinç UZUN, Tarık Yerlikaya, Oğuz Kırat
Pages : 72-77
View : 14 | Download : 4
Publication Date : 2018-12-30
Article Type : Research Paper
Abstract :Gerekli veriyi web sayfasından çıkarmak veri madenciliği ve bilgi erişimi alanındaki uygulamalar için önemlidir. Web sayfasından veriyi çıkarmak için DOM tabanlı yöntemler veya düzenli ifadeler kullanılabilir. Bu çıkarım işlemi için hem DOM tabanlı yöntemler hem de düzenli ifadeler için birden fazla çıkarım kuralı hazırlanabilir. Bu çalışmada, çıkarım kuralları ile birden fazla veriyi elde etmenin çıkarım işlemi üzerindeki etkinliği incelenmiştir. Veri seti olarak haber, film ve alış/veriş alanlarında olmak üzere on beş web sitesi seçilmiştir. Bu web siteleri için farklı çıkarım teknikleri ile veri çıkarımı için çıkarım kural dosyaları oluşturulmuştur. Web sitelerinde özellikle yorum gibi tekrarlayan veriler üzerinde odaklanmıştır. Deneyler, oluşturulması daha zahmetli ve zaman alıcı düzenli ifadelerin DOM tabanlı yöntemlere göre çok daha iyi sonuçlar verdiğini göstermiştir. DOM tabanlı yöntemler arasında beklenildiği gibi lxml ayrıştırıcı kütüphanesi en iyi sonuçları vermiştir. Deneyler, bir geliştirici tarafından hazırlanan çıkarım kuralarının çıkarım süresini etkilediği göstermektedir. Sonuç olarak, iyi hazırlanmış çıkarım düzenli ifadeleri ile web sayfalarında çok daha hızlı bir şekilde istenilen veriye erişmek mümkündür.Keywords : Çıkarım yöntemleri, Web veri çıkarımı, DOM, Düzenli ifadeler