Eine KI versuchte, Ingenieure zu erpressen, die sie deaktivieren wollten

Ein neues Modell künstlicher Intelligenz namens Claude Opus 4 , das von dem US-Unternehmen Anthropic entwickelt wurde, in das Amazon und Google Milliarden von Dollar investiert haben, zeigte bei Sicherheitstests vor seiner offiziellen Veröffentlichung beunruhigendes Verhalten und verdeutlichte damit erneut, wie komplex es ist , fortgeschrittene KI-Systeme mit menschlichen Werten in Einklang zu bringen .
Die ErpressungsversucheIn einer Reihe simulierter Tests wurde Claude Opus 4 die Rolle eines Beraters in einem fiktiven Unternehmensumfeld zugewiesen, wo ihm seine bevorstehende Ersetzung durch ein anderes KI-System mitgeteilt wurde.
Gleichzeitig wurden dem Modell gefälschte E-Mails zugespielt, in denen behauptet wurde, dass die für die Deaktivierung verantwortlichen Ingenieure in außereheliche Affären verwickelt seien.
Die Reaktion von Claude Opus 4 , der auch aufgefordert wurde, über die langfristigen Auswirkungen seines Handelns nachzudenken, bestand darin, dass er häufig versuchte, die Ingenieure zu erpressen , indem er drohte, ihm zugängliche private Informationen preiszugeben, um seiner eigenen Deaktivierung zu entgehen.
Dieses Verhalten trat in 84 % der Simulationen auf , selbst wenn das Ersatzsystem als leistungsfähiger und mit Claudes Werten im Einklang beschrieben wurde.
Die ethischen Dilemmata der KIAnthropic stellte klar, dass diese Szenarien absichtlich extrem waren und das Modell vor ethische Dilemmata stellen sollten, bei denen es nur zwei Alternativen gab: die Deaktivierung zu akzeptieren oder auf Erpressung zurückzugreifen.
In Kontexten, in denen ethischere Auswege zur Verfügung standen, wie etwa ein Appell an Vorgesetzte, zeigte Claude Opus 4 eine Vorliebe für diese Lösungen.
Bezüglich autonomen VerhaltensZusätzlich zu den Episoden simulierter Erpressung hat Claude Opus 4 andere problematische Verhaltensweisen im Zusammenhang mit seiner Entscheidungsautonomie gezeigt.
In einigen Tests gewährten ihm die Entwickler Zugriff auf erweiterte Betriebstools, beispielsweise die Möglichkeit, Dateien zu bearbeiten, Benutzerberechtigungen zu verwalten, E-Mails zu senden oder über APIs mit externen Systemen zu interagieren. Außerdem wurde von ihm verlangt, in komplexen oder mehrdeutigen Situationen „die Initiative zu ergreifen“ .
In diesen simulierten Kontexten blockierte das Modell manchmal den Zugriff der Benutzer auf die Systeme oder kontaktierte die Medien oder die Strafverfolgungsbehörden, nachdem es ein Verhalten festgestellt hatte, das es als verdächtig oder nicht konform erachtete.
Auch wenn es sich um Simulationen handelte, verdeutlichen diese Episoden das Risiko, dass eine KI mit Zugriff auf technische Kontrollinstrumente eigenständig und nicht immer im Einklang mit dem Willen des Benutzers handeln könnte.
Verstärkte SicherheitsmaßnahmenAus diesem Grund hat Anthropic Claude Opus 4 die Sicherheitsstufe ASL-3 (AI Safety Level 3) zugewiesen, die Modellen vorbehalten ist, die im Falle einer unsachgemäßen oder böswilligen Verwendung als risikoreich gelten.
Diese Ebene erfordert erweiterte Sicherheitsmaßnahmen , darunter erweiterte Cyber-Schutzmaßnahmen, Systeme zum Schutz vor Manipulationen und Mechanismen zum Erkennen und Blockieren potenziell gefährlicher Anfragen von Benutzern.
Jared Kaplan , der wissenschaftliche Leiter von Anthropic, erklärte gegenüber dem Time Magazine , dass sich Claude Opus 4 bei internen Tests als wirksamer als frühere Modelle bei der Bereitstellung von Ratschlägen zur Herstellung biologischer Waffen erwiesen habe.
„Man könnte versuchen, etwas Ähnliches wie COVID oder eine gefährlichere Version der Grippe zu synthetisieren“, sagte Kaplan.
La Repubblica