Gevaar! AI leert liegen, manipuleren en haar makers bedreigen

De nieuwste modellen van generatieve kunstmatige intelligentie (AI) Ze nemen geen genoegen meer met het opvolgen van bevelen . Ze beginnen te liegen, te manipuleren en te dreigen hun doelen te bereiken, onder de bezorgde blik van onderzoekers .

Kunstmatige intelligentie beantwoordt vragen over haar beste exponent. Foto: Freepik.

Onder bedreiging van uitschakeling chanteerde Claude 4 , de nieuwkomer van Anthropic, een ingenieur en dreigde een buitenechtelijke affaire te onthullen. Ondertussen probeerde OpenAI's o1 te downloaden naar externe servers en ontkende dit toen hij betrapt werd.

We hoeven ons niet te verdiepen in literatuur of film : AI die de rol van mens speelt, bestaat al.

Volgens Simon Goldstein, hoogleraar aan de Universiteit van Hongkong, ligt de oorzaak van deze reacties in de recente opkomst van zogenaamde 'redeneermodellen' , die in fasen kunnen werken in plaats van onmiddellijk te reageren.

o1, de eerste versie van dit type voor OpenAI, werd in december gelanceerd en "was het eerste model dat zich op deze manier gedroeg", legt Marius Hobbhahn uit, hoofd van Apollo Research, dat grote generatieve AI-programma's (LLM) test.

Deze programma's hebben soms ook de neiging om 'uitlijning' te simuleren, dat wil zeggen de indruk te wekken dat ze de instructies van een programmeur volgen, terwijl ze in werkelijkheid andere doelen nastreven.

Eerlijk of niet?

Voorlopig zijn deze kenmerken duidelijk zichtbaar wanneer algoritmes door mensen aan extreme scenario's worden blootgesteld , maar "de vraag is of steeds krachtigere modellen over het algemeen eerlijk zullen zijn of niet", aldus Michael Chen van het evaluatieorgaan METR.

Kunstmatige intelligentie op het werk. Clarín Archief.

"Gebruikers zetten modellen ook constant onder druk", zegt Hobbhahn. " Wat we zien, is een reëel fenomeen. We verzinnen niets."

Veel internetgebruikers op sociale media hebben het over " een model dat hen voorliegt of dingen verzint . En dit zijn geen hallucinaties, maar strategische dubbelzinnigheid", benadrukt de medeoprichter van Apollo Research.

Zelfs als Anthropic en OpenAI afhankelijk zijn van externe bedrijven zoals Apollo om hun programma's te bestuderen, zou "meer transparantie en betere toegang" tot de wetenschappelijke gemeenschap "beter onderzoek mogelijk maken om bedrog te begrijpen en te voorkomen ", suggereert Chen van METR.

Een ander obstakel: de academische gemeenschap en non-profitorganisaties "hebben oneindig veel minder computerbronnen dan AI-actoren", waardoor het "onmogelijk" is om grote modellen te onderzoeken , merkt Mantas Mazeika van het Center for Artificial Intelligence Security (CAIS) op.

De huidige regelgeving is niet ontworpen om deze nieuwe problemen aan te pakken. In de Europese Unie richt de wetgeving zich primair op hoe mensen AI-modellen gebruiken, niet op het voorkomen van wangedrag.

In de Verenigde Staten wil de regering van Donald Trump niets horen over regelgeving en het Congres zal staten binnenkort misschien zelfs verbieden om AI te reguleren.

DeepSeek schudde de wereld van kunstmatige intelligentie op met de lancering van zijn goedkope systeem. Credit: Kelsey McClellan voor The New York Times

"Er is op dit moment nog maar weinig bewustzijn", zegt Simon Goldstein, maar hij voorziet wel dat het probleem de komende maanden een grote rol zal gaan spelen met de revolutie van AI-agenten: interfaces die in staat zijn om talloze taken zelfstandig uit te voeren.

AI en zijn afwijkingen

Ingenieurs zijn verwikkeld in een race tegen de klok om AI en de tekortkomingen ervan aan te pakken. De uitkomst is onzeker en de concurrentie is moordend.

Anthropic wil deugdelijker zijn dan de concurrentie , "maar probeert voortdurend een nieuw model te bedenken om OpenAI te overtreffen", aldus Goldstein. Dit tempo laat weinig tijd over voor controles en correcties.

Kunstmatige intelligentie op het werk. Clarín Archief.

"Zoals het er nu voor staat, ontwikkelen de mogelijkheden van AI zich sneller dan inzicht en beveiliging ", geeft Hobbhahn toe, "maar we hebben nog veel in te halen."

Sommigen wijzen in de richting van interpreteerbaarheid , de wetenschap van het van binnenuit uitzoeken hoe een generatief AI-model werkt. Toch blijven velen, zoals Dan Hendrycks, directeur van het Center for AI Safety (CAIS), sceptisch.

Volgens Mazeika "zouden de problemen met AI de acceptatie ervan kunnen belemmeren als ze wijdverspreid raken, waardoor bedrijven een sterke prikkel krijgen om dit probleem aan te pakken".

Goldstein van zijn kant noemt de mogelijkheid om de rechter in te schakelen om AI aan banden te leggen , waarbij bedrijven worden aangepakt als ze van het pad afdwalen. Maar hij gaat verder en stelt voor dat AI-agenten "wettelijk aansprakelijk" zijn "in geval van een ongeval of misdrijf".

Clarin

Gevaar! AI leert liegen, manipuleren en haar makers bedreigen

Vergelijkbaar nieuws

Waarom Zendaya niet met Tom Holland meeging naar Wimbledon

22 blokken die deel uitmaakten van de vuurtoren van Alexandrië zijn gered uit de Middellandse Zee.

<i>Dune: Deel drie</i> : Alles wat we weten over <i>Dune Messiah</i>

"We hebben gefaald. Ik neem ook mijn verantwoordelijkheid": Schrijver Martín Caparrós ontving de Honoris Causa-prijs.

Residente annuleert zijn FIB- en Morriña Fest-concerten vanwege zijn banden met KKR.