Büyük Veri Nedir ? Veri Madenciliği Nasil Yapılır ?
Bugün ise sizlere Weka'yı elimden geldiğince tanıtmaya çalışacağım. Nedir bu weka diyorsanız paniklemeyin sakince yerinize oturun ve yazının keyfini çıkartın.
Weka Nedir ?
Waikato Üniversitesi tarafından java dili ile geliştirilmiş GNU(Genel Kamu Lisansı) kapsamında bir veri analiz aracıdır. Veri madenciliğinde kullanılan popüler yazılımlardan bir tanesidir. Veri madenciliği işlemini gerçekleştirmek için Kümeleme(Clustering),Sınıflandırma(Classification),İlişkilendirme(Association) gibi yöntemleri kullanır. Desteklediği dosya uzantı formatı ise .arff'dır.ARFF(Attribute Relationship File Format) ve CSV(Comma-Separated Values) Dosya Yapısı
Direkt olarak ARFF dosya yapısına geçmeden önce veri madenciliği alanında sık kullanılan ve ARFF formatına çevrilen .csv dosya formatından bahsetmek istiyorum. CSV dosya formatı verileri virgül ile ayırarak belirli bir düzen içerisinde bulunmalarını sağlar. CSV dosya formatını Excel yardımı ile kolayca elde edebiliriz. Bir senaryo ile CSV ve ARFF arasındaki ilişkiyi,dönüşümlerini örneklendirelim.
Son 4 yılın dolar kurlarının bir web sitesinin veri tabanında depolandığını düşünelim. Dolar kurlarını Weka üzerinden analizi gerçekleştirebilmek için öncelikle Weka'nın anlayabileceği dilden verileri elde etmeliyiz. Yani elimizdeki verileri arff dosya formatına çevirmeliyiz. Bu işlemi gerçekleştirmek için öncelikli olarak var olan verilerimizi Excel'e aktarabiliriz. İnternette bununla alakalı tonlarca video ve makale hali hazırda bulunmaktadır.
En basitinden excele aktarılmış veriler bu şekilde gösterilecektir. A1 tarih ve B1 o tarihe ait dolarının fiyatını veriyor. Tabiki şuan bende 4 yıllık bir dolar kuru verisi yok ve üstte belirtilen dolar fiyatları tamamiylen kafadan atılmış değerler peki bu işlemi gerçekleştirdikten sonra ne yapacağız ? Çok basit farklı kaydet diyerek verileri .csv formatında kaydedeceğiz.
Kaydettiğiniz .csv dosyasını bir text editör yardımı ile açtığınızda üstteki gibi bir görüntü ile karşılaşacaksınız. Gördüğünüz üzere verilerimiz ; ile ayrılmış durumda geriye ise tek birşey kaldı bu dosyayı Weka yazılımın anlayacığı olan ARFF dosya türüne dönüştürmek. Bunun için ARFF dosya yapısını biraz inceleyelim.Bir ARFF dosyası @relation,@attribute ve @data yapısından oluşur. Relation(İlişki) veri topluluğumuza bir isim vermemiz gereken alandır.
Attribute(Özellik) ise programlama bilginiz var ise şöyle düşünün. Attribute yardımıyla bir değişken oluşturuyoruz.Aynı zamanda o değişkene bir veri tipi belirliyoruz. Anlamadıysanız endişelenmeyin birazdan hepsini örneğimiz için gerçekleştireceğim.Wekadaki attributeler şunlardır ;
NUMERIC : Sayısal değerlerdir.
REAL : Tüm reel sayısal değerleri içerir.(Örnek: 12,2)
STRING : Metinsel değerlerdir(Metin Madenciliğinde sık sık kullanılırlar).
NOMINAL : Kümesel değerlerdir.
DATE : Tarihi değerlerdir.
Data(Veri) Elimizde var olan veriler topluluğudur.
Kendi örneğimizi CSV'den ARFF'a çevirirsek şöyle bir sonuç almış oluruz ;
tarih ve satis : Tarih anlaşılabileceği üzere date tipinden bir veri içeriyor. Satis ise numeric yani sayısal bir veri tipi içeriyor.
data : tarih ve satis özelliğinin verilerini içeriyor.
Bir sonraki yazıda görüşmek üzere hoşçakalın.
teşekkürler iyi bir anlatım olmuş
YanıtlaSilHocam merhabalar, tiff dosya formatını weka üzerinde sınıflandırmaya tabii tutmak için bi yöntem var mıdır? bu konuda bilginiz var mı? şimdiden teşekkür ederim..
YanıtlaSilIki sütun halindeki verilerim tek sütunmuş gibi görünüyor ve numerik olması gerekirken nominal gösteriyor. Ne yapmalıyım acaba. (Verilerim enlem ve boylam şeklinde)
YanıtlaSilmerhaba ben de macbook kullanıyorum, arff dosyalarını açmabilmek için ne yapmam lazım.
YanıtlaSil