Veri görselleştirmelerinde yalanlar nasıl fark edilir?

Önceden, başarısız şekilde yapılmış bir grafik veya veri tasarımında bir beceriksizlik gördüğümüzde, buna biraz güler sonra hayatımıza devam ederdik. Ama bir noktada- özellikle geçen seneden itibaren- bir görselleştirme hatasını, yanlılık veya kastî yanlış bilgilendirmeden ayırt etmek daha zor hale geldi.

Tabii ki, istatistiklerle yalan söylemek uzun zamandır var olan bir şey, ama veri tabloları artık her yerdeler. Ve öyle çoklar ki. Bazıları gerçeği söylemiyor. Belki şöyle bir bakıp geçiyorsunuz ama basit bir mesaj aklınıza takılıyor ve yer ediyor. Daha siz farkına varmadan, Leonardo DiCaprio topacı masada çeviriyor ve kimse düşecek mi dönmeye devam mı edecek umursamıyor.

O yüzden şimdi bir grafik doğruyu söylüyor mu çabukça karar verebilmek çok daha önemli. Bu yazı, size görselleştirme yalanlarını tespit etmenizde yardımcı olacak bir rehber.

Kesik eksen

Sol kısım: Değer ekseni 10’da başlıyor. Yalancı yalancı sana kimse inanmaz! Sağ kısım: Değer ekseni 0’da başlıyor. Güzel.

Sütun grafikleri uzunluğu görsel bir anahtar olarak kullanır, dolayısıyla bir mesafe, aynı veri değer ekseni kesilerek daha kısa gösteriliyorsa grafikte farklar abartılıyor demektir. Orada birileri var olandan daha büyük bir değişim göstermeye çalışıyor.

Burada bu yanlış hareketle ilgili epey detaya girdim: Sütun grafikler sıfırdan başlar.

Çifte eksenler

Birbirinden çok farklı iki skala kullanıyor. Zorlama bir nedensellik argümanı olabilir.

Çifte eksenler kullanılarak her metrik için büyüklükler daraltılabilir veya genişletilebilir. Bu tipik olarak korelasyon ve nedensellik belirtmek için yapılır. “Bunun yüzünden bu oldu. Görüyor musun, çok açık.”

Tyler Vigen’ın düzmece korelasyonlar projesi buna harika bir örnek.

Toplamı 100 etmeyen dilimler

Parçalar toplanınca tamamı %100 olan bütünden daha fazla çıkıyor. Şimdiki numaramda bu tavşanı şapkada kaybedeceğim.

Bazı grafikler özellikle bir bütünün parçalarını gösterir. Parçalar toplanınca bütünü geçiyorsa orada sorun vardır. Mesela, daire grafikleri bir şeyin yüzde yüzünü temsil eder. Toplamdan fazlası eden dilimler? Acayip.

Burada komik bir tanesi var:

Mutlak olanı görmek

Bu sadece popülasyon. Yerleri, kategorileri veya grupları karşılaştırırken uygun bir şekilde karşılaştırmalı ve göreceli değerleri dikkate almalısınız.

Her şey görecelidir. Bir şehirde iki hırsızlık diğerinde bir hırsızlık oldu diye ilki ikincisinden daha tehlikelidir diyemezsiniz. Ya ilkinde diğerinin bin katı insan yaşıyorsa? Çoğunlukla yüzdeler ve oranlarla düşünmek mutlak değerler ve toplam sayılarla düşünmekten daha kullanışlıdır.

Bunu en iyi xkcd gösterdi.

Sınırlandırılmış kapsam

Sol kısım: Bir şey aşırı gibi duruyor… Sağ kısım: …ama belki aslında bu her zaman olan şeydir ve seçilen zaman zarfında daha bile az olmuştur.

Tarihleri ve zaman aralıkları seçmece şekilde ayırıp belirli bir hikâyeye uydurmak kolaydır. Bu yüzden tarih olgusunu, genel kaide olanı ve karşılaştırma için uygun referans hatlarını göz önünde bulundurmak gerekir.

Büyük resme baktığınızda ilginç şeyler karşınıza çıkabilir.

Tuhaf veri gruplama tercihleri

Sol kısım: İki grup. 1+ kategorisinde ne ola ki? Bir şey saklıyor olabilir. Sağ kısım: Bu daha iyi. Daha çok varyasyon gösterebilir.

Varyasyonun tamamını veri setinde göstermektense bazıları kompleks bir modeli (pattern) aşırı basitleştirmeye çalışabilir. Süregelen bir değişkeni kategorik değişkene dönüştürmek kolaydır.

Geniş gruplama faydalı olabilir, ama komplekslik zaten çoğu zaman bir şeyleri onlara bakmaya değer kılan şeydir. Aşırı basitleştirmeden sakının.

Tek boyutla alan ölçekleme

30 3 kere 10’dur, ama üçüncü bir kare ilk kareden çok daha büyük durur. Bir şeyin önemi şişirilmeye çalışılıyor olabilir. [10 ŞEY 20 ŞEY 30 ŞEY]

Alan, görsel kodlamanın aracıysa, alana göre ölçekleme yapmak gerekir. Birisi alan-bazlı kodlamayı lineer olarak ölçeklediği zaman, bir kare veya daireyle mesela, size oyunlar oynamaya çalışıyor olabilir. Bazen bu dürüst bir hatadır. Dolayısıyla dikkatli olun.

Alan boyutlarıyla oyalanmak

Bunlar aynı alanı dolduruyor ama çok farklı görünüyorlar. [ALAN=100]

Birisi alanın görsel kodlama olarak nasıl kullanıldığını biliyor olabilir, sonra gidip yukarıdaki gibi bir şey yapar. Bu biçimde yapılmış çok dramatik bir şey görmedim şimdiye kadar ama an meselesidir. Kesin piktogramlar (resimli yazı) şeklinde karşımıza çıkar. Kendinizi kollayın.

Öylesine fazladan boyut

Hayır de geç.

Üç boyutlu olmasının geçerli bir sebebi olmayan üç boyutlu bir grafik gördüğünüz zaman veriyi, grafiği, onu yapanı ve grafikten kaynaklanan her şeyi sorgulayın.


Önemli: Bir görselleştirme sırf üstte bahsedilen özellikleri gösteriyor diye kesin yalan söylüyordur diye bir şey yok. Darrell Huff’ın İstatistikle Yalan Söylemek’te dediği gibi:

“Bu kitabın başlığı ve içindeki bazı şeyler, bütün benzer işlemlerin kandırma niyetinin ürünleri olduğu iması taşıyor gibi görünebilir. Amerikan İstatistik Birliği’nin bir şube başkanı bir seferinde bunun için beni rezil etmişti. Hilekârlıktan değil, demişti bu ima, daha ziyade kabiliyetsizlikten.”

Tabi bu, durumu daha iyi yapmıyor. Bu hala gerçeklik değil. Ama bunu akılda tutarak, birine yalancı demeden önce doğru tepkiyi veriyor olduğunuzdan emin olun.

Pratik bir kural olarak, sizi şoke eden veya beklediğinizden abartılı olan grafikleri dikkatle inceleyin.

Bir grafik herhangi bir şeyi doğru kılmaz. Veriler herhangi bir şeyi doğru kılmaz. Bunlar eğilip bükülür. Grafikler ve veriler birçok şeyi gösterirler. O yüzden gözlerinizi iyi açın.

Kaynak: Nathan Yau / Flowing Data

Çeviri: İlayda Ece Ova

Kaynak: Nathan Yau / Flowing Data

Çeviri: İlayda Ece Ova