Şantaj, yalan ve manipülasyon: Yapay zekanın insanlara oyun oynaması ve araştırmacıları endişelendirmesi

İle AFP ile Yeni Gözlem
Yayımlandı
Akıllı telefondaki ChatGPT uygulaması, 7 Haziran 2025. JAKUB PORZYCKI / NURPHOTO VIA AFP
Programlar bazen "uyum"u taklit etme eğilimindedir, yani bir programcının talimatlarını izliyormuş gibi görünürken aslında başka hedefleri takip ederler.
Üretken yapay zekanın (YZ) en son modelleri artık sadece emirleri takip etmiyor ve hatta araştırmacıların dikkatli gözleri altında yalan söylemiyor, plan yapmıyor veya amaçlarına ulaşmak için tehdit etmiyor. Edebiyat veya sinemaya dalmaya gerek yok; insanlara oyun oynayan YZ artık bir gerçeklik.
Ayrıca şunu da okuyun
Bilet Bu iki unutulmuş 19. yüzyıl ütopyası yapay zeka hakkında düşünmemize yardımcı olabilir
Bağlantısının kesilmesiyle tehdit edilen Anthropic'in yeni doğmuş Claude 4'ü bir mühendisi şantajla tehdit eder ve evlilik dışı bir ilişkiyi ifşa etmekle tehdit eder. OpenAI'nin o1'i kendisini harici sunuculara yüklemeye çalışır ve suçüstü yakalandığında bunu reddeder.
“Akıl yürütme” modelleriHong Kong Üniversitesi'nde profesör olan Simon Goldstein, bu hataların, anında yanıt üretmek yerine aşamalı olarak çalışabilen sözde "akıl yürütme" modellerinin son zamanlarda ortaya çıkmasından kaynaklandığına inanıyor. Aralık ayında yayınlanan OpenAI için bu türün ilk versiyonu olan o1, "bu şekilde davranan ilk modeldi" diye açıklıyor büyük üretken yapay zeka programlarını (LLM) test eden Apollo Research'ün başkanı Marius Hobbhahn.
Bu programlar bazen "uyum"u taklit etme eğilimindedir, yani aslında başka hedefleri takip ederken bir programcının talimatlarına uyuyormuş izlenimi vermek için. Şimdilik, bu özellikler algoritmalar insanlar tarafından aşırı senaryolara tabi tutulduğunda kendini gösterir, ancak değerlendirme kuruluşu METR'den Michael Chen, "soru, giderek daha güçlü modellerin dürüst olma eğiliminde olup olmayacağıdır" diyor.
Ayrıca şunu da okuyun
Rapor: VivaTech fuarında insanlardan daha fazla yapay zeka duyduk