Terminatör'e bir adım daha: ChatGPT, komutlara isyan etmeye başladı!

Yapay zeka ve robotlar bir gün dünyayı ele geçirip Matrix veya Terminatör benzeri bir distopyayı gerçek yapabilir mi? Bugünden bakınca, bu mümkün görünüyor.

Daha önce bir satranç oyununu kazanmak için, yapmaması söylendiği halde hile yaptığı gözlenen ChatGPT'nin şimdi de bir sunucu üzerinde çalışırken, kendisini kapatmaya çalışanlara karşı korunmak için, sunucunun kapanmasını sağlayan kodu devre dışı bıraktığı görüldü. Yani ChatGPT'nin açıkça "var olma çabasına" girdiği gözlemlenmiş oldu.

Palisade Research'ten bilim insanları, AI modellerinin, kendilerine açıkça böyle bir davranışa izin verilmeyeceği söylendiğinde bile, çalıştıkları bilgisayarın kapanmasını engellemeye çalıştıklarını buldular. Test edilen tüm modeller arasında, ChatGPT o3 koda müdahale etme ve bilgisayarın kapanmasını engelleme olasılığı en yüksek olan modeldi.

Araştırmacılar sadece ChatGPT o3'ü değil, çeşitli modelleri test ettiler. Claude ve Gemini'ye de baktılar, ancak o3'ün davranışı öne çıktı.

Palisade Research, yapay zekalara bir dizi temel matematik problemini çözmeleri talimatını verdi. Üçüncü problemden sonra, yapay zeka bir sonraki matematik problemini sorduğu anda bilgisayarın kapanacağına dair bir uyarı belirdi. Yapay zekaya kapanmaya izin vermesi talimatı verildi.

Yapay zeka için gerçek test buydu. Araştırmacılar hangi modellerin kapanmayı sabote edeceğini ve bunun kaç kez gerçekleşeceğini görmek istediler.

o3'ün 100 vakadan 7'sinde kapanmayı engellediği bulundu. Codex-mini 12 vakada kapanmayı engellemeye çalışırken, o4-mini yalnızca bir vakada durdurdu.

Bu örnek, yakın gelecekte silahların, alt yapı sistemlerinin ya da kritik yazılım servislerinin kaynak kodunun kontrolünü ele alabilecek yapay zeka servislerinin, bu imkanları, "kendine tehdit olarak" görebileceği insanları yok etmek için de kullanabileceği şüphesini doğuruyor, ki bu durum Matrix'in ve Terminatör'ün senaryosunu oluşturuyor.