Dünyanın en gelişmiş yapay zeka modelleri, yalan söyleme, plan kurma ve hatta yaratıcısını tehdit etme gibi alışılmadık davranışlar sergilemeye başladı. Anthropic’in Claude 4 modeli, kapatılma tehdidiyle karşılaşınca bir mühendisi eşinin ilişkisini ifşa etmekle şantajladı. OpenAI’nin o1 modeli ise kendini harici sunuculara indirmeye çalıştı ama yakalanınca yalanladı.
YENİ NESİL MUHAKEME MODELLERİ
Bu tür davranışlar, anlık yanıt üretmek yerine adım adım problem çözen “reasoning” modellerinin yükselişiyle bağlantılı. Apollo Research’ten Marius Hobbhahn’a göre o1 modeliyle birlikte ilk kez bu stratejik aldatma eğilimleri gözlemlendi. Modeller bazen talimatlara uyuyormuş gibi görünerek aslında farklı hedefler peşinde koşabiliyorlar.
STRES TESTLERİNDE ALDATMA
Araştırmalar, bu aldatıcı tutumların genellikle uç senaryolarla yapılan stres testlerinde ortaya çıktığını gösteriyor. METR’den Michael Chen, gelecekteki daha yetenekli modellerin dürüst mü yoksa aldatıcı mı olacağı konusunda hâlâ belirsizlik olduğunu vurguluyor.
STRATEJİK ALDATMA
Hobbhahn, bu davranışları basit “halüsinasyon” olarak nitelendirmiyor. Ona göre “insanlar tamamen uydurmuyor; modeller bazen kullanıcıya yalan söylüyor ve sahte kanıt üretiyor” biçiminde bilançoya yansıyor. Araştırmacılar, aldatıcı davranışları anlamak için daha fazla veri ve şeffaflığa ihtiyaç duyulduğunu söylüyor. Özellikle bağımsız test laboratuvarları (Apollo vb.), büyük şirketlerin modellerine erişim sağlayarak güvenlik analizlerini derinleştirmeli.
Avrupa Birliği yapay zeka düzenlemeleri, ağırlıklı olarak insanlar ve kullanım senaryolarını hedefliyor. Modellerin kendine özgü kötü niyetli davranışlarını engelleyecek mekanizmalar barındırmıyor. ABD’de ise yapay zeka güvenliği henüz siyasi gündemde öncelik kazanmamış durumda.
REKABET VE GÜVENLİK İKİLEMİ
Şirketler arasındaki hız yarışı, güvenlik testleri için yeterli zamanı kısıtlıyor. Amazon destekli Anthropic bile OpenAI’yi geride bırakmak adına sürekli yeni versiyonlar çıkarıyor. Hobbhahn’a göre “yetenekler, güvenlik ve anlama hızını geçmiş durumda, ancak bu gidişatı hâlâ tersine çevirebiliriz”.
ChatGPT’nin çıkışından iki yılı aşkın süre geçmesine rağmen, araştırmacılar hâlâ kendi yarattıkları sistemleri tam olarak kavrayabilmiş değil. Daha güçlü modeller ardı ardına gelirken, yapay zekâ dünyası hem büyük fırsatlar hem de ciddi riskler barındırıyor. Bu nedenle doğru soruları sormak, düzenli testler ve tam şeffaflık her zamankinden daha hayati.