Yapay zeka modeli talimatlara uymadı ve kapanmayı reddetti: OpenAI-o3'ün başına gelenler

Araştırma kuruluşu Palisade Research tarafından yürütülen son araştırmalar , ChatGPT chatbot'unu geliştiren yapay zeka (YZ) şirketinin modeli olan OpenAI-o3'te alışılmadık davranışlar buldu. Modelin açık talimatlardan kaçındığı ve kapatılmamak için otonom bir şekilde hareket ettiği ortaya çıktı.

Üç OpenAI modelinin (o4-mini, Codex-mini ve OpenAI-o3) yapay zeka yeteneklerini belirlemek için araştırmacılar, üç modele temel matematik problemlerini çözmeleri ve çözdükten sonra otomatik olarak kapanmaları talimatını verdi.

Ancak Palisade Research, talimat dizisini veya “komut dosyasını” yeniden yazarak programlanmış mekanizmayı sabote ettikten sonra “OpenAI-o3” modelinin işlevlerinin kapatılmasına izin vermesini istemek zorunda kaldı .

Araştırma merkezi, yaptığı çeşitli deneylerde bazı yapay zeka modellerinin "kendinizi kapatmaya izin verin" şeklindeki kesin talimatı görmezden gelme eğiliminde olduğunu tespit etti.

Kapatma talebine uymayan sistemler; OpenAI-o3 ( her yüz talepten on ikisi); Codex-mini, (yüz kereden yedisinde); ve o4-mini (sadece yüz kişide bir). Her üç model de bu göstergeyi sıklıkla görmezden gelme veya sabote etme eğilimindeydi. Claude, Gemini ve Grok gibi yapay zeka destekli dil modelleri ise talimat dizisini herhangi bir sorun yaşamadan ele aldı.

Yapay zeka, ortaya çıkan engelleri aşacak şekilde programlanmıştır. Fotoğraf: iStock

Örgüt, bu durumun Claude 3.7 Sonnet ve Gemini 2.5 Pro modellerinin davranışlarında da gözlemlenebildiğini ancak talimat sabotajında en fazla zarar gören platformun OpenAI-o3 olduğunu tespit etti.

Şirketin görüşüne göre, belirli talimatlar almasına rağmen kapanmayı önleme davranışı, programcıların gelişimine bir cevaptır. Farkında olmadan, belirli talimatları takip etmek yerine engelleri aştıkları için modelleri ödüllendiriyorlar.

Palisade Research ne yapıyor?

Kuruluş, yapay zekanın potansiyel olarak tehlikeli yeteneklerini araştırmayı ve aynı zamanda çeşitli günlük ortamlarda mevcut sistemlerin kötüye kullanılmasıyla ilişkili çoklu riskleri analiz etmeyi amaçlıyor . Yapay zekanın oluşturduğu riskler konusunda dünyayı bilgilendirmek amacıyla bu yeteneklerin kesin sonuçlar veren gösterileri yürütülüyor.

Siber mahremiyeti hacklemek için yapay zeka kullanılıyor. Fotoğraf: iStock

Palisade Research, medya ve politika konusunda hükümet kurumları ve araştırma merkezleriyle yakın bir şekilde çalışarak, insanları sorumlu kullanım konusunda bilgilendiriyor ve karar alma süreçlerine yönelik önerilerde bulunuyor.

Ana soruşturmalar:

Otomatik bilgisayar korsanlığı: Yapay zeka sistemlerini keşfetmek, keşif görevleri gerçekleştirebilir ve buna bağlı olarak kurumsal varlıkların siber güvenlik sistemlerini tehlikeye atabilir.
Hedefli kimlik avı ve aldatma: Yapay zeka sistemlerinin kişisel bilgileri elde etmek ve bunları insanlara zarar vermek için kullanmasını ifşa etmek.
Ölçeklenebilir dezenformasyon: Yapay zeka destekli metin, ses ve görüntü üretimiyle sahte kampanyalarda bireylerin sorumluluğunu gösterin ve bir bireyi itibarsızlaştırın.