Sosyalmedyada ve AHaber, Sabah, Güneş, Takvim gibi haber sitelerinde paylaşılan farklı görsellerde 16 Haziran 2019 tarihinde İsmail Küçükkaya’nın moderatörlüğünde gerçekleşen İBB Başkan Adaylarının ortak canlı yayını sırasında adayların kullandıkları kelime sayılarına dair çeşitli istatistiklere yer verildi.
Burhan Kuzu da Twitter üzerinden yaptığı paylaşımlarda benzer iddiaları dile getirdi.
İlgili istatistiklerin nasıl bir yöntemle toplandığına dair herhangi bir bilgiye ulaşılamamasının ardından Teyit olarak böylesi iddiaların nasıl doğrulanabileceğine dair örnek bir çalışma sunmamızın faydalı olabileceği tespitinde bulunduk. Özetle ilgili paylaşımların gerçeği yansıtmadığını söylemek mümkün.
Bu veri neden şüpheli?
Sunulan verilere dair şüphe duymamıza sebep olan temelde üç etmen bulunuyor. İlki ve en önemli olanı bu verilerin nasıl toplandığına dair bir metodolojinin okuyuculara sunulmamış oluşu. Yöntemi şeffaf bir biçimde açıklanmayan çalışmalar karşısında şüphe kasımızı diri tutmak çoğu zaman oldukça kritik bir önem taşıyor.
İkincisi verinin kim tarafından toplandığına dair herhangi bir bilginin görseller üzerinde paylaşılmamış oluşu. Bu çalışma kim tarafından yapıldı? Eğer kim tarafından yapıldığı biliniyorsa ilgili kurum daha önce benzer çalışmalarda bulundu mu? Bulunduysa metodolojisi ne ölçüde şeffaf? Bu görsellerin daha ilk sorudan testi geçemediği görülüyor.
Üçüncü nokta iddiada dile getirilen kelimelerin “cherry-picking” bir biçimde ele alınmış olduğu noktasında edinilen izlenim. Kavramı Türkçe’de kabaca “işine geleni seçmek” olarak olarak ifade etmek mümkün. Yani kasıtlı olarak bu kelimelerin adaylardan biri lehine seçilmiş olduğu ve diğer onlarca farklı ve münazaranın bağlamıyla ilintili olabilecek kelimenin göz ardı edilmiş olabileceği ihtimali göze çarpıyor.
Böylesi istatistikler nasıl çıkartılabilir?
Çoğu zaman karşımıza çıkan veriden şüphelenmek oldukça kolay. Ancak önemli olan nokta şu: Böylesi verilere gerçekte nasıl ulaşılabilir? Bu sorunun yanıtı aslında çok da zor görünmese de işlemin kendisinin bir hayli meşakkatli olabileceğini öngörmek mümkün. İzlenebilecek bir yöntem şöyle olabilir: Ele alınmak istenen bir dizi kelime bir kenara not edilir, canlı yayın kaydı tekrar tekrar dinlenir, manuel bir biçimde tek tek bu kelimelerin kaçar kez yayında kullanıldığı sayılır.
Bu yöntem kulağa basitmiş gibi gelse de esasında kullanılan kelimeleri kaçırmak ve hatalı bir biçimde sayımı gerçekleştirmek oldukça olası. Aynı zamanda içerisinde yaşadığımız çağda böylesi bir yöntem izlemek biraz absürd olurdu. Daha makul bir yöntem izledik.
Adım 1: Speech-to-Text ile yayın kaydını metne dökme
Binali Yıldırım ile Ekrem İmamoğlu arasında 16 Haziran 2019 tarihinde gerçekleşen münazaranın tam kaydına Youtube’dan ulaşmak mümkün. Bizim ilgilendiğimiz kısım video değil, ses kayıtları olduğundan ilk aşamada ses kaydını ayırıp ele almamız gerekiyor.
İnternette Youtube videosundan yalnızca sesi çekmek için kullanılabilecek onlarca araca denk gelmek mümkün. Örneğin Offliberty isimli internet sitesi bu işlemi kolaylıkla gerçekleştirebiliyor ve Youtube videolarındaki sesi mp3 formatında indirmemizi sağlıyor.
Bu sesi çeşitli “speech-to-text” uygulamalarıyla metne çekmek mümkün. Bu uygulamalar Türkçe’ye “makine öğrenmesi” olarak çevrilebilecek “machine learning” ile yetenekleri kuvvetlendirilen ses tanımlama metotları olarak düşünülebilir. Google’ın Cloud Speech-to-Text hizmetinin yanı sıra internette Happy Scribe, Trint gibi uygulamalar da bir konuşmayı metne dökmek için kullanılmakta. Poynter’den Ren LaForme’un bu konuyla ilgili hazırladığı makale ilgililer için oldukça aydınlatıcı olabilir.
Burada kullanıcılar için kısmen zorluk yaratan iki durum var. İlki bu uygulamaların hemen hepsinin ücretli olması. Zaman zaman Google, kullanıcılarına uygulamalarını denemeleri için ücretsiz krediler sunsa da Cloud Speech-to-Text hizmetini tam anlamıyla kullanabilmek için belirli bir düzeyde Python veya R gibi bir programlama dili bilgisine sahip olmanız gerekebiliyor. İnternetteki diğer uygulamalar ise görece daha basit arayüzlere sahip, ancak fiyat açısından biraz daha tuzlu.
İkinci zorluk yaratan durum ise speech-to-text uygulamalarının Türkçe’de kusursuz olmaktan bir hayli uzak oluşu. İşi büyük ölçüde kolaylaştırdığı muhakkak, ancak Türkçe’de büyük oranda kusursuz bir metin için manuel kontrol kesinlikle gerekli.
Bu yöntemle Yıldırım ile İmamoğlu arasındaki münazaranın ses kaydını metne dökme imkanımız oldu. Kerem İnal ve Musa Özgen Altuntaş’ın harcadığı yoğun emek neticesinde elde edilen metin bir analizde kullanılabilir hale geldi.
Bu noktada son aşamada metnin kullanılabilir olduğuna dair kararı benim verdiğimi ve muhtemel hataların da benim sorumluluğumda olduğunu belirtmem gerek. Metinde ufak tefek yazım yanlışları tespit etmeniz mümkün. Öte yandan bunların sistematik bir biçimde bir aday lehine veya aleyhine olamayacağı noktasında garanti verebiliriz. Speech-to-text uygulamasının Türkçe’de kusursuz olmayışı ve bizlerin de bu tarz bir çalışmayı ilk kez gerçekleştiriyor oluşu yaptığımız çalışmada küçük de olsa bir hata payı bırakıyor.
Çalışmamız neticesinde elde ettiğimiz, Yıldırım ile İmamoğlu arasındaki münazaranın tam metnine buradaki linkten ulaşabilirsiniz.
Adım 2: Konuşmacıları ayırma ve metin analizi
Bu yazıya konu olan iddiaya dönersek konunun konuşmacıların dile getirdikleri kelimelerin sayısına dair bir mesele olduğunu yeniden görebiliriz. Elimizdeki metin ise tüm konuşmacıların dile getirdiklerini içeriyor. Bunları konuşmacı bazında ayıklamak ve birbirinden bağımsız word dosyalarına aktarmanın bir sonraki adımda işimizi bir hayli kolaylaştıracağının sinyalini şimdiden verebiliriz.
Kısaca Ekrem İmamoğlu’nun dile getirdiği kelimeleri bir arada görmek için bu linke,
Binali Yıldırım’ın söylediği sözleri görmek için buraya,
İsmail Küçükkaya’nın söyledikleri için ise bu linke tıklayabilirsiniz.
Her ne kadar İsmail Küçükkaya’nın söylediklerini ayrı bir analize tabi tutmayacak olsak da kendisinin söylediklerine yer vermenin konuyla ilgili çalışma yapacak başka akademisyenler ve gazeteciler için faydalı olabileceğini düşündük. Bu çalışmadaki tüm dosyaları Teyit’i kaynak olarak göstermeniz şartıyla çalışmalarınızda özgürce kullanabilirsiniz.
Bu metinlerde dile getirilenleri analiz etmek ve kimin hangi kelimeleri kaçar kez söylediğini bulmak için esasında farklı yöntemler izlenebilir. R ve Python’da metin analizleri kapsamında ilginizi çekebilecek “text mining” yöntemleri bulabilirsiniz. Doğal dil işleme (natural language processing) konusunda ilerlemek elinizde tuttuğunuz metinlerden bambaşka bulgular elde etmenizi sağlayabilir. Örneğin duygu analizi bunlardan kulağa en ilginç gelenleri arasında düşünülebilir.
Öte yandan bu yazıda ele alınan iddia kapsamında ulaşılması gereken verileri elde etmek için illa programlama bilmek gerekmiyor. Online Utility sayfasındaki metin analizi aracıyla veya Textalyser isimli sayfadan da bu iddia kapsamında işimize yarayabilecek verileri elde etmemiz mümkün. Bu bağlamda;
Ekrem İmamoğlu’nun hangi kelimeleri tekrarladığına dair verileri görüntülemek için buraya,
Binali Yıldırım’ın hangi sözcükleri sıklıkla dile getirdiğini görmek için buraya,
İsmail Küçükkaya’nınkiler içinse bu linke tıklayabilirsiniz.
Adım 3: Kelime sayılarına dair bir uyarı ve en sık kullanılanları listeleme
Bazı kelimelerin sıkça kullanılması elbette çok normal. “Bir, bu, ve, ile, de, da, ki” ve benzeri örnekleri münazarada tekrar edilen kelime sayısına dair bir analizde değerlendirme içerisine katmak pek anlamlı olmayabilir. Analizi münazaranın bağlamına dair kelimeler ile günlük yaşamda dile getirilen kelime öbekleri odaklı ilerletmek adayların kelime tercihleri noktasında daha bütünlüklü bir resim sunacaktır. Öte yandan bu tarz bir yaklaşım sizi ikna etmiyorsa tüm kelimelerin dahil edildiği sıralama hemen üstte yer verdiğimiz linklerde yer alıyor.
Aşağıda böylesi bir yaklaşımla hazırladığımız en çok kullanılan kelimeler listelerini görebilirsiniz. Bu listelerin içerisinde iddia kapsamında değinilen “yatırım, milli, gençlik, anlamadım, üzülüyorum, ben, biz, insan, proje, istihdam, hizmet” gibi kelimelerle “buraya ünlem koy, haberim yok, ben bilmem, alakam yok, teknoloji üssü” gibi kelime öbeklerine de yer vereceğiz. Öte yandan başlangıçta değindiğimiz “cherry-picking” usulüne dair uyarıyı bu noktada hatırlatmak gerek.
Binali Yıldırım’ın en çok dile getirdiği ve münazaranın bağlamıyla ilintili kelimeleri şu şekilde listelemek mümkün:
Listeyi oluştururken kelimelerin çekim ekleri almış hallerini de göz önünde bulundurduğumuzu belirtelim. Ek olarak kullanılan kelimelerin sayısından ziyade, esasında ele alınan bir kelimenin tüm kelimeler içerisindeki oransal payı daha anlamlı olabilir. Nitekim Ekrem İmamoğlu’nun genel itibariyle canlı yayın boyunca daha hızlı konuştuğunu ve Yıldırım’dan daha fazla sayıda kelime sarf ettiği tespitinde bulunulabilir.
İddia görsellerini bu noktada yeniden hatırlatalım:
Bu anlamda soldaki görselde yalnızca “anlamadım” ve “buraya ünlem koy” kelimelerinde Binali Yıldırım için sunulan verilerle bizim ulaştıklarımız uyumlu görünüyor. Sağdaki görselde ise “haberim yok,” “ben bilmem,” “alakam yok” gibi kelime öbekleri uyumlu. Ancak kısa bir göz gezdirmeyle anlaşılabileceği üzere buradaki uyum pek de anlamlı değil.
Ekrem İmamoğlu’nun en çok dile getirdiği ve münazaranın bağlamıyla ilintili kelimeleri şu şekilde listelemek mümkün:
Bu veriler ışığında iddiada soldaki görselde Ekrem İmamoğlu için sunulan verilerle bizim ulaştıklarımız hiçbir kelimede uyumlu gözükmüyor. Sağdaki görselde ise yalnızca “teknoloji üssü” kelime öbeği için sunulan veri uyumlu. Ancak bu uyumun da anlamlı olduğu düşünülemez.
Son olarak kelime öbekleri bağlamında kısaca birkaç bulgu sunabiliriz. Ekrem İmamoğlu iki kelimeden oluşan kelime öbekleri içerisinde en çok “Sayın Yıldırım” (41 kez), “İsmail Bey” (22 kez) ve “Anadolu Ajansı” (16 kez) öbeklerini kullanırken; üçlü öbeklerde “İstanbul Büyükşehir Belediyesi” (7 kez) ve “bir şey söyleyeyim” (6 kez) kelimelerini dile getirmiş.
Bu sırada Binali Yıldırım ise iki kelimeden oluşan kelime öbekleri içerisinde en çok “Ekrem Bey” (30 kez), “İsmail Bey” (21 kez) ve “Halk Partisi” (8 kez) öbeklerini dile getirirken; üçlü öbeklerde “Cumhuriyet Halk Partisi” (8 kez) ve “bir şey yok” (8 kez) kelimelerini kullanmış.
Benzer çalışmalara dair bir not
Euronews’te 18 Haziran 2019 tarihinde yayımlanan ve Servet Yanatma tarafından hazırlanan haber yukarıda sunduğumuz çalışmaya benziyor. Öte yandan kelime sıklıklarında çeşitli farklılıklar olduğu gözlemlenebilir. Bu farklılıkların temel nedeni bizim sunduğumuz verilerde kelimelere gelen çekim eklerini göz ardı etmemiş oluşumuz. Örneğin adayların kullandığı “insana” veya “insanımıza” gibi kelimelerin de “insan” kelimesine dair sunulan istatistiğe dahil edilmesini anlamlı bulduk. Bu tercih bazı kelimelerin kullanım sıklığında belirgin farklılıklar yaratırken bazılarında pek bir değişiklik yaratmıyor. Yanatma tarafından hazırlanan çalışma ile bizimki arasında böylesi bir farklılık söz konusu. Bunun yanı sıra Euronews’te yayımlanan istatistiklerde belirli bir metodoloji izlendiği anlaşılabiliyor ve dolayısıyla bizim yukarıda ele aldığımız görsellerdeki iddialarla bir arada değerlendirilmelerinin doğru olmayacağı kanaatindeyiz.
Kullanılan kelime sayılarına dair iddialar daha önce de dile getirilmişti
Mayıs 2019’un sonlarına doğru bu yazıda ele aldığımız iddialara benzer iddialar hemsosyalmedyada hem de habersitelerindedile getirilmişti. Bu iddiaların hepsinde, sunulan verilerin bu analizde ele alınan iddialardan biriyle birebir aynı olduğunu görmek mümkün. Farklı olarak önceki iddialarda bir zaman aralığı sunulmuş ve verilerin “Şubat-Mayıs 2019 arasında gerçekleşen canlı yayınlardan derlendiği” belirtilmişti. Bu iddiaları ele almak için bu tarihler arasında gerçekleşen ve adayların katıldığı tüm canlı yayınların kayıtlarını elde edip onlarca saatten oluşacak olan ses kayıtlarını ayıklamak, bunları metne dökmek ve analize tabi tutmak gerekecekti. Oldukça zahmetli ve bir o kadar da maliyetli olabilecek böylesi bir çalışmayı elbette gerçekleştirmedik. Ancak hazırladığımız bu çalışma bu iddialardaki verilerin de ne kadar sağlıklı olduğu konusunda bir çıkarım yapmanıza yardımcı olacaktır.
Sonuç
Netice itibariyle kullanılan kelime sayıları üzerinden sosyal medyada ve çeşitli haber sitelerinde ileri sürülen iddiaların gerçeklerden bir hayli uzak kaldığı söylenebilir. Bütünüyle uydurulduğunu söyleyebileceğimiz bu tarz tablolara özellikle haber sitelerimizde yer verirken bir kez daha düşünmek gerek.
Ulaştığımız verilerden de görülebileceği üzere adayların en sık kullandığı ve münazaranın bağlamı içerisinde değerlendirilebilecek kelimeler büyük oranda birbirine benziyor. Öte yandan yalnızca bu tarz bir yöntem doğrultusunda kullanılan kelimelere bakarak adayların aldığı siyasi pozisyonlar hakkında bir fikir sahibi olmanın tam anlamıyla mümkün olmadığını söylemek gerek. Bu nedenle kim tarafından geliştirilirse geliştirilsin bu tarz tabloları yorumlarken temkinli olunmalı.