Loading AI tools
Vikipedi'den, özgür ansiklopediden
İstatistikte, keşifsel veri analizi (exploratory data analysis; EDA), genellikle istatistiksel grafikler ve diğer veri görselleştirme yöntemlerini kullanarak temel özelliklerini özetlemek için veri kümelerini analiz etme yaklaşımıdır. İstatistiksel bir model kullanılabilir veya kullanılamaz. Ancak öncelikle EDA, verilerin bize resmi modelleme veya hipotez testi görevinin ötesinde neler söyleyebileceğini görmek için vardır. Keşifsel veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için John Tukey tarafından desteklenmiştir. EDA, model uydurma ve hipotez testi için gereken varsayımları daha dar bir şekilde kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya odaklanan ilk veri analizinden (initial data analysis; IDA)[1] farklıdır. EDA, IDA'yı kapsamaktadır.
Birçok EDA fikri daha önceki yazarlara kadar izlenebilir, örneğin:
Açık Üniversite'nin Toplumda İstatistik (MDST 242) dersi, yukarıdaki fikirleri aldı ve bunları Gottfried Noether'in yazı tura ve medyan testi yoluyla istatistiksel çıkarımlar sunan çalışmasıyla birleştirdi.
Tukey, 1961'de veri analizini şu şekilde tanımladı: "Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve verilerin analizi için geçerli olan (matematiksel) istatistiklerin tüm makineleri ve sonuçları."[3]
Tukey'nin EDA'yı savunması, istatistiksel hesaplama paketlerinin, özellikle de Bell Laboratuvarlarında S'nin geliştirilmesini teşvik etti. S programlama dili, S-PLUS ve R sistemlerine ilham verdi. Bu istatistiksel hesaplama ortamları ailesi, istatistikçilerin daha fazla çalışmayı hak eden verilerdeki aykırı değerleri, eğilimleri ve kalıpları belirlemesine olanak tanıyan büyük ölçüde geliştirilmiş dinamik görselleştirme yeteneklerine sahiptir.
Tukey'nin EDA'sı istatistiksel teorideki diğer iki gelişmeyle ilgiliydi: her ikisi de istatistiksel modellerin formüle edilmesinde istatistiksel çıkarımların hatalara duyarlılığını azaltmaya çalışan sağlam istatistikler ve parametrik olmayan istatistikler. Tukey, sayısal verilerin beş sayı özetinin (iki uç (maksimum ve minimum), medyan ve çeyrekler) kullanımını teşvik etmiştir. Çünkü bu medyan ve çeyrekler, deneysel dağılımın işlevleri olan, ortalama ve standart sapma; dahası, çeyrekler ve medyan, geleneksel özetlerden (ortalama ve standart sapma) çarpık veya ağır kuyruklu dağılımlara karşı daha dayanıklıdır. S, S-PLUS ve R paketleri, parametrik olmayan ve sağlam (birçok problem için) Quenouille ve Tukey'nin jackknife[4] ve Efron'un önyüklemesi gibi yeniden örnekleme istatistiklerini kullanan rutinleri içeriyordu.
Keşfedici veri analizi, sağlam istatistikler, parametrik olmayan istatistikler ve istatistiksel programlama dillerinin geliştirilmesine yarar sağlamıştır. Ayrıca istatistikçilerin bilimsel ve mühendislik problemleri üzerindeki çalışmalarını kolaylaştırmıştır. Bu tür problemler, yarı iletkenlerin üretimini ve Bell Laboratuvarlarını ilgilendiren iletişim ağlarının anlaşılmasını içeriyordu. Tümü Tukey tarafından desteklenen bu istatistiksel gelişmeler, istatistiksel hipotezleri test etmeye yönelik analitik teoriyi, özellikle de Laplacian geleneğinin üstel ailelere yaptığı vurguyu tamamlamak üzere tasarlanmıştır.[5]
John W. Tukey, 1977'de Keşif Verileri Analizi kitabını yazdı.[6] Tukey, istatistikte çok fazla vurgunun istatistiksel hipotez testine (doğrulayıcı veri analizi) verildiğine karar verdi; test edilecek hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerekiyordu. Özellikle, iki tür analizin karıştırılmasının ve bunların aynı veri kümesi üzerinde kullanılmasının, veriler tarafından önerilen hipotezleri test etmenin doğasında bulunan sorunlar nedeniyle sistematik önyargıya yol açabileceğini savundu.
EDA'nın amaçları şunlardır:
Veri madenciliğinde birçok EDA tekniği benimsenmiştir. Ayrıca genç öğrencilere istatistiksel düşünceyi tanıtmanın bir yolu olarak öğretilmektedir.[8]
EDA için yararlı olan bir dizi araç vardır. Ancak EDA, belirli tekniklerden çok, alınan tutumla karakterize edilir.[9]
EDA'da kullanılan tipik grafik teknikleri şunlardır:
Boyutsal küçülme:
Tipik nicel teknikler şunlardır:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.