- Avrupa Bilim ve Teknoloji Dergisi
- Issue:26 - Ejosat Special Issue:2021 (HORA) Special Issue
- COVID-19 ile İlgili Sosyal Medya Gönderilerinin Metin Madenciliği Yöntemlerine Dayalı Olarak Zaman-M...
COVID-19 ile İlgili Sosyal Medya Gönderilerinin Metin Madenciliği Yöntemlerine Dayalı Olarak Zaman-Mekansal Analizi
Authors : Aytuğ ONAN
Pages : 138-143
Doi:10.31590/ejosat.957020
View : 14 | Download : 8
Publication Date : 2021-07-31
Article Type : Conference Paper
Abstract :COVID-19, hastalığın ilk bildirildiği dönemden bu yana, şiddetli akut solunum sendromu büyük salgınlara neden olmaktadır ve dünya çapında bir pandemiye dönüşmüştür. Dünyanın birçok ülkesinde, COVID-19 salgınının zaman-mekansal analizine yönelik olarak önemli sayıda gerçek zamanlı, etkileşimli mobil ya da çevrimiçi coğrafi bilgi sistemleri, web siteleri ve uygulamalar geliştirilmiştir. Bilgi ve iletişim teknolojilerindeki ilerlemeler ile pek çok farklı kaynaktan COVID-19 salgınına yönelik olarak elde edilen veriler, salgın durumuna ilişkin bilgilerin etkin ve zamanında elde edilebilmesi için büyük önem taşımaktadır. Internetteki medya ve iletişim platformlarında paylaşılan haber makaleleri, bulaşıcı hastalık salgınlarının izlenmesi ve takip edilmesi için önemli bir veri kaynağı niteliğindedir. Bu çalışmada, İngiltere ve İspanya’da COVID-19 sürecine ilişkin 2020 yılının mart, mayıs ve temmuz aylarında yayınlanan 299’ar tane haber makalesi toplanarak oluşturulan derlem kullanılmaktadır. Metin belgelerinin temsilinde, üç temel n-gram modeli olan (1-gram, 2-gram ve 3-gram) temsilleri, tümce ögeleri 2-gram ve tümce ögeleri 3-gram öznitelikleri, kelime/tümce ögesi çiftleri, karakter n-gram (n=2) ve karakter n-gram (n=3) öznitelikleri ve bu özniteliklerin biraraya getirilmesi ile elde edilen topluluk öznitelik kümelerinin etkinlikleri değerlendirilmektedir. Öznitelik kümelerinin başarımlarının değerlendirilmesinde, altı temel makine öğrenmesi sınıflandırıcısı olan Naive Bayes algoritması, lojistik regresyon algoritması, destek vektör makineleri, C4.5 karar ağacı, k-en yakın komşu algoritması ve rastgele orman algoritması kullanılmaktadır. Deneysel analizlerde kullanılan on yedi farklı metin temsil yöntemi arasında en yüksek başarımın, sözcük tabanlı 1-gram özniteliklerin karakter tabanlı 3-gram modeli ile kullanıldığında elde edildiği görülmektedir. Deneysel analizlerde kullanılan temel sınıflandırma algoritmaları arasında en yüksek başarım rastgele orman algoritmasıyla, ikinci en yüksek başarım ise lojistik regresyon algoritmasıyla alınmaktadır. Deneysel analizler, makine öğrenmesi ve metin madenciliği tekniklerinin, salgın hastalıklara ilişkin sosyal medya gönderilerinin zaman/mekânsal analizi için uygun teknikler olduğunu göstermektedir.Keywords : metin madenciliği, makine öğrenmesi, veri bilimi