Veriyi Biz Ürettik, Değeri Onlar Aldı

OpenAI’nin web sitesinde bir misyon ifadesi var: “İnsanlığın tümüne fayda sağlayan yapay zeka geliştirmek.” Tümüne. 2023 yılında Time dergisi bu “tüm” içinde kimin olduğuna dair çarpıcı bir ayrıntı ortaya koydu: OpenAI, ChatGPT’yi daha az zararlı hale getirmek için Kenya’daki işçilere saatte iki dolar ödüyordu. Bu işçilerin görevi, modelin ürettiği şiddet, cinsel istismar ve nefret içerikli metinleri okuyup etiketlemekti. Günde sekiz ila on saat, insan psikolojisinin kaldırabileceği en ağır içeriklerle. Psikolojik destek yoktu. İşçi başına günlük kazanç: on altı dolar.

Dünyanın en değerli yapay zeka şirketinin ürününün temelinde, en kırılgan coğrafyanın en güvencesiz emeği yatıyor.

Bu OpenAI için bir istisna değil. Yapay zekanın iş modeli.

Ekstraktivizm Dijitalleşince

“Ekstraktivizm” kavramı Latin Amerika’dan geliyor. Petrol, maden, tarım ürünleri gibi doğal kaynakların çıkarılıp hammadde olarak ihraç edilmesini, işlenmiş değerin ise başka yerlerde birikmesini tanımlıyor. On dokuzuncu yüzyılda Bolivya’nın gümüş madenlerinin Avrupa kasalarını doldurması; yirminci yüzyılda Nijerya petrolünün uluslararası şirketlerin bilançolarına akması bu yapının farklı dönemlerdeki görünümleri.

Ekonomistler Mezzadra ve Neilson bu kavramı genişletiyor: Ekstraktivizm artık yalnızca toprak altındaki şeylere uygulanmıyor, insan emeğine, bilgisine ve ilişkilerine de uygulanıyor (Mezzadra & Neilson, 2017). Dijital kapitalizmin yükselişiyle birlikte çıkarılan kaynak madenden buluta taşındı ama çıkarma mantığı aynı kaldı: Değeri üretenler, o değerden en az yararlananlardır.

Yapay zeka tam da burada duruyor. Hammaddesi veri ama verinin klasik hammaddelerden önemli bir farkı var: Farkında olmadan üretiliyor. Bir maden işçisi neyin çıkarıldığını biliyor. Bir dijital kullanıcı büyük çoğunlukla bilmiyor. Her arama, her yorum, her tıklama, her diyalog bir veri noktası üretiyor. Bu hammadde çıkarılırken ne tam anlamıyla rıza alınıyor, ne bedel ödeniyor, ne hak tesis ediliyor. Kullanıcı “ücretsiz” bir hizmet aldığını düşünürken aslında hammadde tedarik ediyor.

Gelişmekte olan ülkeler bu döngüde iki kez kaybediyor: Hem pasif veri üreticisi olarak sistematik biçimde değersizleştiriliyor, hem de aktif ama güvencesiz emekçi olarak sürece dahil ediliyor. Bu iki kayıp aynı yapının iki yüzü ve her ikisi de görünmezliğe mahkûm ediliyor.

Görünmez Emek: “Yapay” Kelimesinin İşi

Bir yapay zeka modelinin çalışması için üç şey gerekiyor: büyük veri, hesaplama gücü ve insan yargısı. İlk ikisi teknoloji haberlerinde, yatırımcı sunumlarında, TED konuşmalarında sürekli gündemde. Üçüncüsü sistematik olarak gizleniyor çünkü görünür olması “yapay” zeka söylemini zedeliyor. “Yapay” kelimesinin işlevi tam da bu: İnsan emeğini söylemden buharlaştırmak.

RLHF, İnsan Geri Bildirimli Pekiştirmeli Öğrenme, modern dil modellerinin kalitesini belirleyen temel süreç. Model bir yanıt üretiyor; insan değerlendiriyor; model bu değerlendirmeden öğreniyor. Bu süreç olmadan ChatGPT ya da herhangi bir büyük dil modeli, tutarlı, güvenli ve kullanışlı metinler üretemezdi.

Peki bu değerlendirmeyi yapan “insan” kim? Büyük ölçüde Remotasks, Scale AI, Appen gibi platformlar üzerinden çalışan, küresel güneyin düşük gelirli işçileri. Filipinler, Kenya, Venezuela, Hindistan gibi ülkelerde saatte birkaç dolar karşılığında binlerce yanıtı etiketleyen, sıralayan, değerlendiren insanlar. Mary Gray ve Siddharth Suri bunu “hayalet iş” olarak adlandırıyor (Gray & Suri, 2019): Teknoloji ne kadar otomatikleşirse, arka planda o kadar çok insan emeği gerektiriyor. Yapay zeka büyüsünün arkasında milyonlarca insan var; büyük çoğunluğu küresel güneyden, güvencesiz koşullarda, psikolojik yükü tazmin edilmeden çalışıyor.

Türkiye bu tabloda nerede? Doğrudan tıklama işçiliğinde Doğu Afrika veya Güneydoğu Asya kadar büyük bir pay yok. Ama dolaylı emek çok daha yaygın ve fark edilmesi çok daha zor: Türkçe içerik üreten her kullanıcı Türkçe eğitim verisi sağlıyor. Sosyal medyada paylaşılan fotoğraflar görüntü modellerini eğitiyor. Arama motorlarındaki tıklama davranışları sıralama algoritmalarını şekillendiriyor. Bunların hiçbiri için ücret ödenmiyor. Bunların hiçbiri için gerçek anlamda rıza alınmıyor.

“Ama kullanım koşullarını kabul ettiniz” denilebilir. Bu teknik olarak doğru. Ama rızanın meşru sayılabilmesi için bilgilendirilmiş olması, alternatifin gerçekçi olması ve güç dengesizliğinin makul sınırlar içinde kalması gerekiyor. Onlarca sayfalık hukuki metni “kabul et” düğmesine tıklamak bu üç koşulun hangisini karşılıyor?

Dil Verisi: Türkçe Konuşanların Farkında Olmadığı Katkı

Büyük dil modellerinin eğitiminde kullanılan Common Crawl veri setine bakıldığında tablo çarpıcı: İngilizce içerik yüzde kırk beş ile elli arasında. Türkçe, dünyada yaklaşık seksen beş milyon konuşucuya sahip olmasına karşın yüzde bir civarında temsil ediliyor (Bender et al., 2021). Bu oran yalnızca teknik bir veri değil, bir öncelik sıralamasının, bir değer yargısının yansıması.

Bu eşitsizlik hem bir temsil adaletsizliği hem de içi boş bir ekonomik paradoks yaratıyor.

Temsil adaletsizliği şu anlama geliyor: Türkçe konuşanlar bu modelleri kullandığında, kendi dillerini, kültürlerini ve tarihlerini daha az bilen sistemlerle muhatap oluyor. Model Türkçeyi eksik “biliyor” çünkü Türkçe veri az. Ancak az olmasının nedeni Türkçe içerik üretilmemesi değil, o içeriğe sistematik olarak daha az değer biçilmesi. Seksen beş milyon insan bu kararı almadı; karar onlar için alındı.

Ekonomik paradoks daha da keskin: Az temsil edilen bu dili konuşanlar, modeli kullandıkça daha fazla Türkçe veri üretiyor ve modeli iyileştiriyor. Bedava. Karşılıksız. Hatta bunun için premium abonelik ücreti, kurumsal lisans bedeli şeklinde ücret ödeyerek. Türkiye’deki kullanıcılar hem ücretsiz hammadde tedarikçisi hem de bu hammaddenin işlenip satıldığı ürünün ücretli müşterisi. Aynı döngünün iki ucunda, iki farklı bedelle.

Kendi emeğinin ürününe para ödemek: Ekstraktivizmin mükemmel bir özeti.

Veri Mülkiyeti: Sahipsiz Hammadde

Peki bu veriler kime ait?

Hukuki yanıt karmaşık ama pratikte net: Platformların kullanım koşulları, kullanıcıların ürettiği içeriğin nasıl kullanılacağını büyük ölçüde şirketin takdirine bırakıyor. Kimsenin okumadığı, okuyanın da ne anlama geldiğini pek anlayamadığı sözleşmeler. Rızanın bu kadar görünmez kılındığı başka bir sektör bulmak güç.

Teknoloji eleştirmeni Jaron Lanier yıllardır “veri emeği” ve “veri temettüsü” kavramlarını savunuyor: Kullanıcılar platformlara değer katan veriyi üretiyorsa, bu değerden pay almalı (Lanier, 2013). Fikir sezgisel olarak güçlü ama pratikte karmaşık. Tek bir aramanın değeri hesaplanamayacak kadar küçük; milyarlarca aramanın birikimiyle ortaya çıkan değer ise hesaplanamayacak kadar büyük. Bu paradoksu çözmek için farklı modeller önerildi: veri kooperatifleri, kolektif müzakere mekanizmaları, veri temettüsü fonları. Hiçbiri ana akıma girmedi. Ama veri egemenliği tartışmaları büyüdükçe bu fikirlerin gündemdeki ağırlığı artıyor.

AB’nin GDPR’ı bu konuda kısmi bir yanıt sunuyor: Kullanıcının verisinin nasıl kullanıldığını öğrenme, düzeltme ve silme hakkı. Ama burada ilginç bir paradoks var: Veri silinebiliyor olması, o verinin eğitiminde kullanıldığı modelin “unutması” anlamına gelmiyor. Bir kez eğitimde kullanılan veri modelin yapısına işlenmiş durumda. Silme talebi yerine getirildiğinde verinin ham formu kaldırılıyor olabilir, ama modelin “öğrendikleri” silinmiyor. Hukuki çerçeve teknolojinin bir adım gerisinde kalıyor ve bu gecikme, büyük ölçüde büyük şirketlerin lehine işliyor.

Türkiye’nin KVKK’sı bu konuda GDPR’dan bile zayıf bir koruma sağlıyor. Türk kullanıcıların verisi üzerindeki hakları, Avrupalı muhataplarına kıyasla hem hukuken hem de pratik uygulama kapasitesi açısından daha kısıtlı. Denetleyici kurumun teknik kapasitesi sınırlı, yaptırım gücü zayıf, uluslararası hukuki koordinasyon mekanizmaları işlevsiz.

İki Katlı Sömürü

Tablo şöyle özetlenebilir: Gelişmekte olan ülke kullanıcıları hem veri üreticisi olarak değersizleştiriliyor hem de bu sistemlerin çalışması için gereken düşük ücretli emeği sağlıyor. İki farklı katmanda, iki farklı mekanizmayla ama aynı yapısal sonuçla.

Birinci katman pasif ve büyük ölçüde farkında değil. Günlük dijital faaliyetler, arama, paylaşım, yorum, tıklama, mesajlaşma hammadde olarak çıkarılıyor. “Ücretsiz hizmet” söylemi bu görünmezliğin ideolojik çerçevesi.

İkinci katman aktif ama güvencesiz. Veri etiketleme, içerik moderasyonu, model değerlendirmesi gibi işler bilinçli olarak yapılıyor ama genellikle asgari ücretin altında, iş güvencesi olmadan, sözleşmesiz, psikolojik yük tazmin edilmeden.

Bu iki katmanın kesiştiği yer özellikle dramatik: Kendi kültürlerinden, dillerinden, tarihlerinden üretilen içeriği etiketleyen işçiler, o içeriğin yarattığı modelin mülkiyetinden tamamen dışlanıyor. Kendi miraslarını, yabancı sermayenin hizmetinde, işlemek için ücret alıyorlar. “İnsanlığın tümüne fayda” söylemi işte bu çerçevede iddia ediliyor.

Görünür Kılmak Yeterli mi?

Bu tablo görünür hale geldikçe ne değişir?

Kısa vadede fazla bir şey değişmez. OpenAI, Kenya haberi kamuoyuna yansıdıktan sonra yüklenici şirketle ilişkisini sonlandırdığını açıkladı. Haber döngüsü kapandı. Aynı iş başka bir coğrafyada, başka bir platformda sürdü. Görünürlük tek başına dönüştürücü değil.

Ama görünürlük, politika müzakerelerinin vazgeçilmez ön koşulu. ILO’nun platform ekonomisi çalışmaları, BM’nin yapay zeka yönetişim tartışmaları, AB Yapay Zeka Yasası… Bunların hepsinde “veri emeği” ve “dijital ekstraktivizm” kavramları giderek daha fazla yer buluyor (Mohamed et al., 2020). Kavramın var olması politikanın var olması için yeterli değil ama kavram olmadan politika da olmaz.

Türkiye açısından bakıldığında bu tartışmanın yerel siyaset gündemine taşınması için hem entelektüel hem de kurumsal altyapı yetersiz. Veri ekonomisi üzerine bağımsız araştırma yapan kurum sayısı bir elin parmaklarını geçmiyor. Platform şirketlerinin veri pratiklerini denetleyecek teknik kapasite kısıtlı. Siyasi gündemde dijital işçi hakları başka önceliklerin gölgesinde kaybolup gidiyor.

Ama fatura birikmeye devam ediyor.

Bir sonraki yazıda materyal boyutun ötesine geçeceğiz: Yapay zeka yalnızca ekonomik değerleri değil, bilginin kendisini, dili ve kültürel temsili de yeniden dağıtıyor. Türkçe düşünmek ile İngilizce hesaplamak arasındaki mesafe ne anlam ifade ediyor?

Bu yazı, “Kimin Yapay Zekası?” başlıklı beş yazılık serinin üçüncü bölümüdür.

Kaynaklar

Bender, E. M., et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT ’21, 610–623.

Gray, M. L. & Suri, S. (2019). Ghost Work: How to Stop Silicon Valley from Building a New Global Underclass. Houghton Mifflin Harcourt.

Lanier, J. (2013). Who Owns the Future? Simon & Schuster.

Mezzadra, S. & Neilson, B. (2017). On the Multiple Frontiers of Extraction. Cultural Studies, 31(2–3), 185–204.

Mohamed, S., Png, M. T. & Isaac, W. (2020). Decolonial AI: Decolonial Theory as Sociotechnical Foresight in Artificial Intelligence. Philosophy & Technology, 33(4), 659–684.

Perrigo, B. (2023, January 18). Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic. Time.