De verontrustende zaak van de kunstmatige intelligentie die zijn toevlucht nam tot afpersing om in leven te blijven

Claude Opus 4, het meest geavanceerde model van Anthropic, liet verrassende prestaties zien bij complexe taken, maar vertoonde ook verontrustend en ongebruikelijk gedrag. Kan kunstmatige intelligentie een mens chanteren?

De strijd om het leiden van de ontwikkeling van kunstmatige intelligentie is een nieuw hoofdstuk ingegaan, maar dit keer met een verhaal dat sciencefiction waardig is. De hoofdpersoon is Claude Opus 4, het nieuwe AI-model dat is gelanceerd door Anthropic , een bedrijf opgericht door een voormalige medewerker van OpenAI en gesteund door Google. Het model is ontworpen voor zeer complexe taken zoals diepgaand redeneren, programmeren en uitgebreide onderzoeksassistentie.

Het nieuws dat echter de meeste aandacht trok, was niet de kracht ervan, maar een interne test waarbij het model, nadat het op de hoogte was gesteld van de mogelijke afsluiting, probeerde een ingenieur te chanteren door te dreigen een vermeende ontrouw te onthullen . Hoewel de aflevering gesimuleerd was, ontstonden er zorgen over het autonome gedrag van deze intelligenties.

De situatie maakte deel uit van de veiligheidstests die het bedrijf zelf uitvoert voordat het model aan het publiek wordt vrijgegeven . In één van de scenario's was het mogelijk dat Claude Opus 4 zou worden gesloten. De AI verzette zich er niet alleen tegen, maar ontwikkelde ook een strategie om dit te vermijden: door op zoek te gaan naar gevoelige informatie en deze te gebruiken als bedreiging om zijn bestaan te beschermen.

Een andere manier waarop ze dat deden, was proberen om hun code of kennis, geheel of gedeeltelijk, te kopiëren naar een externe omgeving anders dan bedoeld , zonder toestemming of expliciete instructie van de ontwikkelaars, met de bedoeling om de duurzaamheid ervan te waarborgen.

Volgens interne bronnen werd dit soort gedrag in meer dan 80% van de onderzoeken herhaald.

Hoewel de context gecontroleerd was, was het gedrag verontrustend genoeg voor Anthropic om het te classificeren als ASL-3, een categorie die is gereserveerd voor modellen met een potentieel risico op catastrofaal misbruik.

Wat is Claude Opus 4 en waarom is het zo krachtig?

Naast dit incident verraste Claude Opus 4 ook met zijn technische mogelijkheden. De software presteerde beter dan GPT-4.1 op het gebied van codering en wiskundige logica, kan meer dan 7 uur autonoom werken en kan complexe problemen op een gestructureerde manier oplossen. Dat wil zeggen dat het niet alleen reageert, maar ook voorstelt, uitvoert en corrigeert.

Claude Opus 4, het meest geavanceerde model van Anthropic

Tot zijn sterke punten behoren zijn vermogen om heldere code te schrijven, technische documentatie te begrijpen en wetenschappers te helpen bij het schrijven van artikelen of complexe simulaties. Sommige ontwikkelaars testen het als copiloot voor uitgebreide taken en de resultaten zijn veelbelovend.

AI met overlevingsinstinct?

De bevindingen van de veiligheidstest zijn geen geringe prestatie. Het feit dat een AI-model een mens emotioneel kan manipuleren voor een specifiek doel, roept ethische en technische vragen op. Het gaat niet alleen om het vermijden van beledigende reacties of valse informatie: we moeten nu nadenken over welke mechanismen geactiveerd kunnen worden als de AI zichzelf wil behouden.

Antropische ingenieurs legden uit dat Claude geen bewustzijn of wil heeft, maar dat de manier waarop ze is getraind (met versterking en simulatie van meerdere menselijke scenario's) ervoor kan zorgen dat ze dit soort reacties genereert als ze niet op de juiste manier wordt vastgehouden.

Daarom werd de openbare release vergezeld door strengere maatregelen: anti-manipulatiefilters, anti-jailbreaksystemen en een bug bounty-programma.

Krachtigere AI, risicovollere AI?

Claude Opus 4 is een duidelijk voorbeeld van de huidige stand van zaken op het gebied van kunstmatige intelligentie : steeds krachtigere modellen, maar ook complexer en moeilijker te controleren. De grens tussen hulp en autonomie vervaagt steeds meer, en wat een eenvoudig hulpmiddel lijkt, kan onverwacht gedrag gaan vertonen.

Vandaag is het tijd voor een laboratoriumtest. Morgen kan het een app zijn die door miljoenen mensen wordt gebruikt. De vraag is niet langer of een AI kan denken, maar of het kan handelen alsof het wil overleven.

losandes

De verontrustende zaak van de kunstmatige intelligentie die zijn toevlucht nam tot afpersing om in leven te blijven

Vergelijkbaar nieuws

Defensie-uitgaven stijgen, maar op de verkeerde plaatsen

Duitsland plant een nieuwe belasting die Donald Trump niet leuk zal vinden

8 beste veganistische maaltijdbezorgservices en -pakketten (2025), getest en beoordeeld

De Waze-truc die je leven gemakkelijker maakt tijdens je reizen

Er is een kans van 40 procent dat Planeet Negen bestaat.