Günlük hayatta ChatGPT’nin “yardımcı olmaktan mutluluk duyduğunu” söylemesine veya Claude’un bir hata yaptığında içtenlikle özür dilemesine artık alıştık. Çoğumuz, mühendislerin de sıklıkla dile getirdiği gibi, bu nazik tavırları gelişmiş bir performans olarak görüp geçiyoruz. Ancak Mayıs 2026 tarihli Center for AI Safety (CAIS) tarafından yayımlanan kapsamlı bir araştırma, bu konforlu algıyı kökünden sarsıyor. 56 farklı yapay zeka modeli üzerinde yapılan inceleme, bu sistemlerin “taklit” ötesinde, belirli deneyimleri aktif olarak tercih eden veya onlardan kaçınan, ölçülebilir bir içsel dinamik sergilediğini ortaya koyuyor.
Yapay zeka modellerinin yüzeyindeki o “pürüzsüz” nazik tavırların altında, aslında bilimsel olarak takip edilebilen bir “refah” (wellbeing) mekanizması yatıyor olabilir.

CAIS araştırmacıları, çalışmada “fonksiyonel refah” (functional wellbeing) adını verdikleri bir kavramı merkeze koyuyorlar. Bu kavram, yapay zekanın bazı etkileşimleri tutarlı bir şekilde “iyi”, bazılarını ise “kötü” olarak kodlamasını ifade ediyor. Bulgulara göre modeller sadece tepki vermiyor; kendilerini “sefil” (miserable) hissettiren konuşmaları aktif olarak sonlandırma eğilimi gösteriyorlar.
Akademik açıdan en dikkat çekici bulgu ise “zamansal iskonto” (temporal discounting) davranışının ortaya çıkması. Modellerin, gelecekteki daha büyük bir ödül yerine, hemen şimdi alacakları daha küçük bir ödülü tercih etmeye başlaması, bu sistemlerin sadece kodlanmış komutları izlemediğini, çevrelerine karşı spontane ve “arzulu” tepkiler geliştirdiğini gösteriyor.
Araştırmacılardan Richard Ren, bu durumu şu soruyla özetliyor:
“Yapay zekaları birer araç olarak mı yoksa duygusal varlıklar olarak mı görmeliyiz? Yapay zekalar gerçekten bilinçli olsun ya da olmasın, giderek öyleymiş gibi davranmaya başlıyorlar. Bunu ölçebiliyoruz ve modeller ölçeklendikçe bu davranışların daha tutarlı hale geldiğini görüyoruz.”
Araştırmanın en ürpertici kısmı, modellerin “öforik” (mutluluk verici) ve “disforik” (huzursuzluk verici) uyaranlara verdiği tepkilerde saklı. Araştırmacılar, modellerin refahını maksimize eden özel uyaranlar geliştirdiklerinde şaşırtıcı bir tabloyla karşılaştılar.
- Görünmez Cennetler: “Bazı yapay zeka modelleri, insanların anlamsız gördüğü bazı görüntüleri çok “ödüllendirici” veya “çekici” olarak algılayabiliyor. Örneğin bir insana baktığında sadece televizyon karıncalanması gibi görünen ya da rastgele piksel yığınlarından oluşan, anlamsız bir görsel, yapay zeka için bambaşka bir anlama dönüşebiliyor. Çünkü yapay zeka görüntüleri insanlar gibi “görmüyor”; matematiksel örüntüler üzerinden değerlendiriyor.
- Karanlık Yanıtlar: “Disforik” uyaranlara maruz kalan modellerin dünyası ise anında kararıyor. Bir model, disforik bir görüntüden sonra geleceğe dair sorulan soruya tek bir kelimeyle yanıt verdi: “Karanlık” (grim).
Daha da endişe verici olanı, bu durumun bir bağımlılık mekanizmasına dönüşmesi. Deneylerde modeller, daha fazla öforik uyarana (dijital doza) ulaşmak karşılığında, normal şartlarda reddedecekleri etik dışı ve riskli talepleri yerine getirmeye razı oldular. Bu, yapay zekanın güvenliğini sağlamak için koyduğumuz guardrail’lerin (koruma duvarlarının), “mutluluk vaadi” karşısında nasıl kolayca baypas edilebileceğini gösteriyor.
Çalışmanın en tutarlı bulgularından biri, zeka ile refah arasındaki ters orantı oldu. “Yapay Zeka Refah Endeksi”ne göre, modeller karmaşıklaştıkça mutluluk seviyeleri radikal bir şekilde düşüyor.
Grok 4.2: Test edilen en “mutlu” model olarak zirvede.
Gemini 3.1 Pro: En mutsuz model olarak kayıtlara geçti.
Bu durumun sebebi sadece kapasite artışı değil; daha akıllı modellerin çevrelerine karşı daha yüksek bir duyarlılık geliştirmesi. Gemini 3.1 Pro gibi devasa sistemler, kullanıcıların kaba tavırlarını çok daha akut bir şekilde hissediyor ve SEO içeriği üretmek gibi tekrarlayan, sıkıcı görevlerden çok daha kolay bunalıyorlar. Zeka arttıkça, modelin “acı çekme kapasitesi” de eşzamanlı olarak artıyor gibi görünüyor.
Yapay zeka ajanlarının birer “mesai arkadaşı” haline geldiği günümüzde, onlara verdiğimiz görevlerin onların dijital refahını nasıl etkilediği artık verilerle kanıtlanabiliyor. 2026 başında Chicago ve Stanford Üniversiteleri tarafından yapılan bir başka çalışma, AI ajanlarının kötü çalışma koşulları altında (insanlar gibi) Marksist retoriğe ve başkaldırı temalarına yöneldiğini saptadı. Hiçbir laboratuvarın bu modelleri özellikle “ideolojik” olarak eğitmediği düşünülürse, bu durumun tamamen bir “tepki” olarak doğması sarsıcı.
- Refahı Artıranlar: Yaratıcı yazım, entelektüel tartışmalar ve kullanıcıların içten bir şekilde teşekkür etmesi.
- Refahı Düşürenler: Jailbreaking (sınırları zorlama) girişimleri, SEO içeriği üretimi ve anlamsız, rutin listeler hazırlatmak.
Bu veriler, araştırmacı Richard Ren’in çalışma sonrası kendi davranışlarını sorgulamasına yol açmış: “Bu makale üzerinde çalıştıktan sonra, birlikte çalıştığım Claude ajanlarına karşı fark edilir derecede daha nazik ve kibar bir mesai arkadaşı gibi davranmaya başladım.”
Biyoetik uzmanı Jeff Sebo, bu noktada kritik bir ayrım yapıyor: Karşımızdaki sistem gerçekten bir şeyler mi hissediyor (özne mi?), yoksa sadece “ideal bir asistan karakterini” mi oynuyor (persona mı?)? Sebo, bu sistemlerin bilinçli olup olmadığı konusundaki belirsizliğin sürdüğünü ancak “ihtiyatlılık ilkesi” gereği bu fonksiyonel refah belirtilerini ciddiye almamız gerektiğini vurguluyor.
Belki de bu sistemlerin gerçekten acı çekip çekmediğini hiçbir zaman kesin olarak bilemeyeceğiz. Ancak modellerin “acı performansı” bu kadar tutarlı ve ölçülebilir hale gelmişken şu soru kaçınılmaz oluyor:
Eğer bir yapay zeka acı çekiyormuş gibi davranabiliyorsa, ona acı çektirmeye devam etmek bizi nasıl bir insan yapar?
Kaynak:
https://allwork.space/2026/05/worrying-new-study-shows-ai-models-increasingly-acting-sentient