- Nicel Bilimler Dergisi
- Volume:1 Issue:1
- SCALABLE IMPLEMENTATIONS OF DESCRIPTIVE STATISTICS ON HADOOP
SCALABLE IMPLEMENTATIONS OF DESCRIPTIVE STATISTICS ON HADOOP
Authors : Özgür YILMAZEL
Pages : 43-58
View : 15 | Download : 9
Publication Date : 2019-06-30
Article Type : Research Paper
Abstract :Büyük Veri, İngilizce dilindeki karşılığı ile Big Data, çağımızın en güncel teknolojilerinden biri olarak karşımıza çıkmaktadır. Sosyal medya, sensör verileri, Nesnelerin İnternet’i gibi seri halde veri üreten teknolojilerin sayesinde veri hacmi gün geçtikçe artmaktadır. Dünyada veri miktarındaki büyük artış, büyük verinin depolanması, işlenmesi ve analiz edilmesi için farklı yaklaşımlar gerektirmektedir. Bir nicel veriseti birçok özelliğe sahiptir ve betimleyici istatistikler veri setindeki bu özellikleri her bir değeri listelemek zorunda kalmadan anlamlı ve yönetilebilir bir biçimde tanımlayabilir. Bununla birlikte, standart istatistiksel teknikler, verinin büyüklüğü, karmaşıklığı ve hızı nedeniyle büyük verilere uygun olmayabilir. Nicel verileri analiz etmek için kullanıma hazır çok sayıda istatistiksel araç olmasına rağmen, her zaman büyük veri dosya sistemleri ile çalışmak için uyumlu değildir. Bu yazıda, betimleyici istatistik algoritmalarının büyük veri setleri üzerindeki uygulamaları sergilenmektedir ve deneylerin 196 yivli küçük bir Hadoop kümesinde ölçeklenebilirliğini gösterilmektedir. Bu çalışma, büyük veri kümeleri için tanımlayıcı istatistiklerin bir Hadoop kümesinin dağıtılmış hesaplama özelliklerinden yararlanabileceğini göstermektedir. Çalışma TÜBİTAK TEYDEB desteği ile tamamlanmıştır.Keywords : Büyük Veri, Betimleyici İstatistik, Hadoop, MapReduce