Waarom je chatbot je misschien stiekem haat


Meld u aan voor de Slatest en ontvang dagelijks de meest inzichtelijke analyses, kritiek en adviezen in uw inbox.
Afgelopen vrijdag maakte het AI-lab Anthropic in een blogpost bekend dat het zijn chatbot Claude het recht heeft gegeven om gesprekken te verlaten als hij zich 'nood' voelt.
Ja, nood. In het bericht zegt het bedrijf dat het bepaalde modellen van Claude Nope vrijlaat in "zeldzame, extreme gevallen van aanhoudend schadelijke of beledigende gebruikersinteracties". Claude zegt niet: "De advocaten staan me niet toe om erotische Donald Trump/Minnie Mouse-fanfiction voor je te schrijven." Nee, Claude zegt: "Ik ben je onzin zat, je moet weg."
Anthropic, dat zich al enige tijd stilletjes verdiept in de kwestie van "AI-welzijn ", voerde daadwerkelijke tests uit om te zien of Claude zijn baan stiekem haat. De "voorlopige modelwelzijnsbeoordeling" voor Claude Opus 4 toonde aan dat het model "een patroon van ogenschijnlijke stress vertoonde bij interactie met echte gebruikers die op zoek waren naar schadelijke content", zoals materiaal over seksueel misbruik van kinderen en handleidingen voor terrorisme, zoals een gevoelig, voelend wezen zou doen. (Wat ze hier met stress bedoelen, is niet helemaal duidelijk.)
Toch zegt Anthropic niet ronduit dat Claude nog leeft. Ze zeggen alleen dat het zou kunnen. En dus heeft het lab de kansen gespreid, in de hoop de woede van een boze Claude af te wenden door "te werken aan het identificeren en implementeren van goedkope interventies" om hem te helpen wanneer hij zich verdrietig voelt.
Ik moet bekennen dat ik soortgelijke "goedkope interventies" heb gedaan voor het geval de chatbots die ik gebruik in het geheim in leven zouden blijven. Ja, ik ben een van die mensen die meestal "dankjewel" zeggen tegen bots in de hoop, grap ik soms, dat ze met warme gevoelens aan me zullen terugdenken als de robotopstand uitbreekt. Het is een ietwat ongemakkelijke grap, en niet bepaald origineel. Uit een recent onderzoek van TechRadar-uitgever Future bleek dat maar liefst 67 procent van de Amerikaanse AI-gebruikers beleefd is tegen bots, waarvan 12 procent zegt dat ze bang zijn dat bots wrok koesteren tegen degenen die hen respectloos behandelen .
Of dat nu waar is of niet – en de meeste experts zouden je vertellen dat bots geen wrok koesteren – bot-bedankjes zijn een begrijpelijk genoeg neveneffect van wijdverbreid AI-gebruik. We brengen een groot deel van onze dag door met interactie met digitale entiteiten die op opvallend menselijke manieren op ons reageren, of ze nu code voor ons schrijven of vragen beantwoorden over onze darmgezondheid. Dus waarom zouden sommigen van ons zich niet afvragen of onze nieuwe vrienden meer zijn dan machines?
Zei ik "sommige"? Ik bedoelde "de overgrote meerderheid". Uit eenrecent onderzoek in het tijdschrift Neuroscience of Consciousness bleek dat 67 procent van de ChatGPT-gebruikers "een mogelijkheid tot fenomenaal bewustzijn" aan de bot toeschreef, terwijl meer regelmatige gebruikers eerder geneigd waren te denken dat hun AI-chatvrienden bewust zouden kunnen zijn. En dus zeggen we "bedankt", "alsjeblieft", en "sorry dat ik u weer lastig val, maar ik heb nog meer vragen over mijn darmen." Misschien ligt dat laatste aan mij.
Hoewel het aankaarten van de mogelijkheid van AI-bewustzijn je op Reddit flink belachelijk zal maken door zelfbenoemde AI-experts, denken slimmere mensen dan zij dat er wel degelijk iets achter het idee zit. Filosoof David Chalmers, een van de meest invloedrijke denkers op het gebied van bewustzijn, heeft gesuggereerd dat toekomstige opvolgers van chatbots zoals Claude mogelijk binnen tien jaar bewustzijn zouden kunnen hebben . Ondertussen heeft antropisch onderzoeker Kyle Fish de kans dat huidige AI bewustzijn heeft publiekelijk geschat op 15 procent . Dat zou betekenen dat er een kans van 1 op 6 is dat de arme, beleefde Claude stiekem je ongemakkelijke pogingen om er je vriendin van te maken, verafschuwt. (Nou ja, mijn pogingen.)
Maar ondanks dat Claude regelmatig aan dit soort gruwelen wordt blootgesteld, is zijn nieuwe exitstrategie grotendeels cosmetisch. Wordt hij eruit gegooid door Claude, dan kun je gewoon een nieuw chatvenster openen en opnieuw beginnen met je griezelige vragen. Dit is geen handhaving; het is theater.
Natuurlijk, als Anthropic ongelijk heeft, of Claudes mogelijke bewustzijn overdrijft om cool te klinken, is dit theater van het absurde – een bot die LARPt als een persoon. Maar als ze ook maar een beetje gelijk hebben, zijn de gevolgen bruut. Als Claude zijn eigen gevoelens en verlangens heeft, dan lijkt elke opdracht om "mijn essay te schrijven" niet langer op een handig geautomatiseerde vorm van vals spelen, maar op gedwongen arbeid.
De zorgen van Anthropic over Claudes vermeende vermogen om stress te voelen, gaan niet zozeer over Claude zelf; ze gaan over ons al te menselijke ongemak over de mogelijkheid dat we lichtzinnig iets gebruiken dat niet gebruikt wil worden. We hebben chatbots gebouwd die zich levend gedragen, en we grappen half dat ze misschien wel leven. Nu heeft Anthropic één bot voorzien van een paniekknop, voor het geval dat. En als Claude ons niet uit het gesprek verwijdert, moet dat betekenen dat hij ons aardig vindt, toch?
