A Study on Missing Data Problem in Random Forest
Authors : Hülya ÖZEN, Cengiz BAL
Pages : 103-109
Doi:10.20515/otd.496524
View : 14 | Download : 9
Publication Date : 2020-01-01
Article Type : Research Paper
Abstract :Rasgele Orman, orijinal verilerin bootstrap örneklerinden oluşturulmuş pek çok karar ağacını bir araya getiren bir topluluk yöntemidir. Rasgele Orman, hem sınıflandırma hem de regresyon için kullanılır ve yüksek doğruluk oranı elde etme, genelleme hatası hesaplama, önemli değişkenleri ve aykırı değerleri belirleme, danışmanlı ve danışmansız öğrenmeyi gerçekleştirme ve yakınlık matrisine dayalı bir algoritma ile eksik gözlemlere değer atama gibi birçok avantaj sağlar. Bu çalışmada, Rasgele Orman’ın yakınlık matrisi temelli atama yöntemini, model kurulumundan önce kullanılan en yakın komşu ile değer atama yöntemiyle karşılaştırmayı amaçladık. Bu nedenle, farklı eksik değer yüzdeleri, komşuluk sayısı ve tahminci değişkenler arasındaki korelasyon yapıları dahil olmak üzere çeşitli senaryolar altında bir sınıflandırma problemi için simülasyon çalışması yapılmıştır. Sonuçlar, yüksek korelasyonlu yapılar için yakınlık matrisi tabanlı atama yönteminin kullanılması gerektiğini, orta ve düşük korelasyonlu yapılar için ise en yakın komşu ile değer atama yönteminin tercih edilmesi gerektiğini göstermektedir.Keywords : knn Atama Yöntemi, Eksik Değer, Yakınlık Matrisi, Random Forests