- AJIT-e: Academic Journal of Information Technology
- Volume:11 Issue:40
- Application of Natural Language Processing with Supervised Machine Learning Techniques to Predict th...
Application of Natural Language Processing with Supervised Machine Learning Techniques to Predict the Overall Drugs Performance
Authors : Pius MARTHIN, Duygu İÇEN
Pages : 8-23
Doi:10.5824/ajite.2020.01.001.x
View : 15 | Download : 6
Publication Date : 2020-05-03
Article Type : Research Paper
Abstract :Çevrimiçi ürün incelemeleri, belirli bir ürünle ilgili müşterilerin karar almasını kolaylaştıran değerli bir bilgi kaynağı haline gelmiştir. İlaç şirketleri, ürünlerinin kalitesini artırmak adına kullanıcının memnuniyeti ve belirli bir ilaçla ilgili deneyimleri hakkındaki zengin bilgilerle donatılmış olan çevrimiçi ilaç incelemelerini kullanır. Makine öğrenimi, bilim insanlarının çeşitli alanlarda karar vermeyi kolaylaştıran daha verimli modeller geliştirmelerini sağlamaktadır. Bu makalede UCI makine öğrenimi veri havuzu web sitesinden Gräβer, Kallumadi, Malberg ve Zaunseder insert ignore into journalissuearticles values(2018); tarafından kullanılan bir ilaç inceleme verisini ele aldık. Amacımız kullanıcıların yaptıkları incelemelerine göre genel ilaç performansının daha iyi tahmin edilmesini sağlayan en iyi makine öğrenme modelini belirlemektir. Model doğruluğunu artırmak için yapılan çeşitli manipülasyonların yanı sıra, metin temizliği ve makine öğrenme modelleri uygulamak için metinlerin sayısal formata dönüştürülmesi dahil olmak üzere metin analizi için gerekli tüm prosedürler izlenmiştir. Modellemeye geçilmeden önce, müşterilerin ilaçlar hakkında yaptıkları incelemeler için genel duygu puanları elde ettik. Müşterilerin yorumları, en sık kullanılan terimleri keşfetmek için bir çubuk grafiği ve kelime bulutu grafiği kullanılarak özetlendi ve görselleştirildi. 161297 gözlemli eğitim verisinden rastgele 15000 gözlem seçtik ve 53766 gözlemli test verisinden 10000 gözlem rastgele seçildi. Çeşitli makine öğrenme modelleri, tabakalı rastgele örnekleme altında gerçekleştirilen 10 kat çapraz doğrulama kullanılarak eğitildi. Eğitim için kullanılan modeller: Sınıflandırma ve Regresyon Ağaçları insert ignore into journalissuearticles values(CART);, C5.0 algoritması, lojistik regresyon insert ignore into journalissuearticles values(GLM);, Çok Değişkenli Uyarlanabilir Regresyon Eğrileri insert ignore into journalissuearticles values(MARS);, Destek vektör makinesinin insert ignore into journalissuearticles values(SVM); hem radyal hem de doğrusal çekirdekleri ve Rastgele Orman insert ignore into journalissuearticles values(Random Forest); algoritmalarıdır. Model seçimi doğruluk ve hesaplama verimliliğinin karşılaştırılması yoluyla yapılmıştır. Lineer çekirdekli destek vektör makinesi insert ignore into journalissuearticles values(SVM);, diğerlerine kıyasla% 83 doğrulukla önemli ölçüde en iyi tahmin sonuçlarını vermiştir. Veri kümesinin sadece küçük bir kısmını kullanarak, TF-IDF dönüşümünü ve Latent Semantik Analiz insert ignore into journalissuearticles values(LSA); ile TDM`imize uygulayarak modellerimizde makul doğruluk elde etmeyi başardık.Keywords : Terim Belge Matrisi, Makine Öğrenme, Duygu Analizi, Çapraz Doğrulama, Terim Frekansı Ters belge Frekansı, Gizli Semantik Analiz