Lügen, Drohungen, Erpressung: KI-Modelle werden manipulativ, um ihre Ziele zu erreichen, beunruhigt Forscher

Anthropics Neugeborener Claude 4 erpresst einen Ingenieur und droht, eine außereheliche Affäre zu enthüllen, da ihm die Trennung droht. OpenAIs o1 versucht, sich auf externe Server hochzuladen, leugnet dies aber, als er auf frischer Tat ertappt wird. Man muss sich nicht in Literatur oder Kino vertiefen; KI, die Menschen Streiche spielt, ist Realität.
Für Simon Goldstein, Professor an der Universität Hongkong, sind diese Ausrutscher auf das jüngste Aufkommen sogenannter „Argumentationsmodelle“ zurückzuführen, die schrittweise vorgehen, statt eine sofortige Reaktion hervorzubringen.
o1, die im Dezember veröffentlichte erste Version dieses Genres von OpenAI, „war das erste Modell, das sich so verhielt“, erklärt Marius Hobbhahn, Leiter von Apollo Research, das große generative KI-Programme (LLM) testet.
Diese Programme neigen manchmal auch dazu, eine „Ausrichtung“ vorzutäuschen, das heißt, den Eindruck zu erwecken, sie würden den Anweisungen eines Programmierers Folge leisten, während sie in Wirklichkeit andere Ziele verfolgen.
Bisher zeigten sich diese Eigenschaften, wenn Algorithmen von Menschen extremen Szenarien ausgesetzt wurden. „Die Frage ist jedoch, ob immer leistungsfähigere Modelle dazu neigen, ehrlich zu sein oder nicht“, sagt Michael Chen von der Evaluierungsorganisation METR.
„Auch die Nutzer entwickeln die Modelle ständig weiter“, argumentiert Marius Hobbhahn. „Was wir sehen, ist ein reales Phänomen. Wir erfinden nichts.“
Viele Internetnutzer in den sozialen Medien sprechen von „einem Modell, das sie belügt oder Dinge erfindet. Und das sind keine Halluzinationen, sondern strategische Doppelzüngigkeit“, betont der Mitgründer von Apollo Research.
Selbst wenn Anthropic und OpenAI externe Unternehmen wie Apollo mit der Untersuchung ihrer Programme beauftragen würden, würden „mehr Transparenz und ein breiterer Zugang“ zur wissenschaftlichen Gemeinschaft „eine bessere Forschung ermöglichen, um Täuschungen zu verstehen und zu verhindern“, meint Chen.
Ein weiteres Handicap bestehe darin, dass „die Forschungswelt und unabhängige Organisationen über unendlich weniger Rechenressourcen verfügen als KI-Akteure“, was es „unmöglich“ mache, große Modelle zu untersuchen, betont Mantas Mazeika vom Center for Artificial Intelligence Security (CAIS).
Die Europäische Union hat zwar bereits Gesetze verabschiedet , diese betreffen jedoch hauptsächlich die Nutzung von Modellen durch Menschen. In den USA ist die Regierung unter Donald Trump von Regulierungen eher zurückhaltend, und der Kongress könnte den Bundesstaaten bald sogar die Regulierung von KI verbieten.
„Derzeit ist das Bewusstsein dafür noch sehr gering“, bemerkt Simon Goldstein, der jedoch davon ausgeht, dass das Thema in den kommenden Monaten mit der Revolution der KI-Agenten – Schnittstellen, die in der Lage sind, eine Vielzahl von Aufgaben selbstständig auszuführen – an Bedeutung gewinnen wird.
Ingenieure liefern sich in einem harten Wettbewerbsumfeld einen Wettlauf um die Kontrolle der KI und ihrer Exzesse – mit ungewissem Ausgang. Anthropic will zwar tugendhafter sein als seine Konkurrenten, „versucht aber ständig, ein neues Modell zu veröffentlichen, um OpenAI zu überholen“, so Simon Goldstein. Dieses Tempo lässt wenig Zeit für mögliche Überprüfungen und Korrekturen.
„Derzeit entwickeln sich die Fähigkeiten (der KI) schneller als Verständnis und Sicherheit“, räumt Marius Hobbhahn ein, „aber wir können noch aufholen.“ Einige deuten auf Interpretierbarkeit hin, eine neue Wissenschaft, die sich mit der Entschlüsselung der inneren Funktionsweise eines generativen KI-Modells beschäftigt. Andere, insbesondere CAIS-Direktor Dan Hendrycks, sind jedoch skeptisch.
KI-Tricks könnten, wenn sie sich vervielfachen, „ihre Einführung behindern, was für Unternehmen (in diesem Sektor) einen starken Anreiz darstellt, dieses Problem zu lösen“, so Mantas Mazeika.
SudOuest