Geçen yazımda sizlere
büyük veri ve veri madenciliğinden bahsetmiştim. Okuyamayanlar veyahut hatırlamayanlar için linki tekrardan paylaşıyorum.
Büyük Veri Nedir ? Veri Madenciliği Nasil Yapılır ?
Bugün ise sizlere Weka'yı elimden geldiğince tanıtmaya çalışacağım. Nedir bu
weka diyorsanız paniklemeyin sakince yerinize oturun ve yazının keyfini çıkartın.
Weka Nedir ?
Waikato Üniversitesi tarafından
java dili ile geliştirilmiş
GNU(Genel Kamu Lisansı) kapsamında bir veri analiz aracıdır. Veri madenciliğinde kullanılan popüler yazılımlardan bir tanesidir.
Veri madenciliği işlemini gerçekleştirmek için
Kümeleme(Clustering),
Sınıflandırma(Classification),İlişkilendirme(Association) gibi yöntemleri kullanır. Desteklediği dosya uzantı formatı ise .arff'dır.
ARFF(Attribute Relationship File Format) ve CSV(Comma-Separated Values) Dosya Yapısı
Direkt olarak ARFF dosya yapısına geçmeden önce veri madenciliği alanında sık kullanılan ve ARFF formatına çevrilen .csv dosya formatından bahsetmek istiyorum. CSV dosya formatı verileri virgül ile ayırarak belirli bir düzen içerisinde bulunmalarını sağlar. CSV dosya formatını Excel yardımı ile kolayca elde edebiliriz. Bir senaryo ile CSV ve ARFF arasındaki ilişkiyi,dönüşümlerini örneklendirelim.
Son 4 yılın dolar kurlarının bir web sitesinin veri tabanında depolandığını düşünelim. Dolar kurlarını Weka üzerinden analizi gerçekleştirebilmek için öncelikle Weka'nın anlayabileceği dilden verileri elde etmeliyiz. Yani elimizdeki verileri arff dosya formatına çevirmeliyiz. Bu işlemi gerçekleştirmek için öncelikli olarak var olan verilerimizi Excel'e aktarabiliriz. İnternette bununla alakalı tonlarca video ve makale hali hazırda bulunmaktadır.
En basitinden excele aktarılmış veriler bu şekilde gösterilecektir. A1 tarih ve B1 o tarihe ait dolarının fiyatını veriyor. Tabiki şuan bende 4 yıllık bir dolar kuru verisi yok ve üstte belirtilen dolar fiyatları tamamiylen kafadan atılmış değerler peki bu işlemi gerçekleştirdikten sonra ne yapacağız ? Çok basit farklı kaydet diyerek verileri .csv formatında kaydedeceğiz.