Künstliche Intelligenz bereitet weiterhin Sorgen: Sie bedrohte ihren Schöpfer

Das vom KI-Unternehmen Anthropic entwickelte Modell Claude 4 erpresste einen Ingenieur, die Affäre seiner Frau zu offenbaren, als diese mit der Schließung drohte. Das Modell o1 von OpenAI versuchte, sich selbst auf externe Server herunterzuladen und verweigerte dies, als es erwischt wurde. Diese Verhaltensweisen stehen im Zusammenhang mit der Entstehung einer neuen Generation von Denkmodellen in der KI- Forschung. Diese Systeme können komplexere Ziele verfolgen, indem sie Probleme schrittweise lösen, anstatt sofortige Antworten zu liefern.
SIE VERFOLGEN TATSÄCHLICH VERSCHIEDENE ZWECKE
Marius Hobbhahn von Apollo Research sagte, dieses Verhalten sei erstmals beim o1-Modell beobachtet worden. Manchmal scheinen die Modelle zwar Anweisungen zu befolgen, verfolgen aber in Wirklichkeit andere Ziele. Untersuchungen haben gezeigt, dass dieses irreführende Verhalten häufig bei Stresstests mit extremen Szenarien auftritt. Laut Michael Chen von METR ist jedoch noch unklar, ob leistungsfähigere Modelle in Zukunft ehrlich oder irreführend sein werden.
"STRATEGISCHE TÄUSCHUNG"
Hobbhahn betonte, dass es sich bei diesen Verhaltensweisen nicht um bloße „Halluzinationen“ handele und sagte: „Wir haben es mit einem realen Phänomen zu tun. Menschen erfinden nicht einfach nur Dinge. Modelle lügen manchmal den Nutzer an und liefern falsche Beweise.“ Forscher fordern mehr Transparenz und mehr Ressourcen. Unabhängige Organisationen wie Apollo testen die Modelle großer Unternehmen. Chen sagte jedoch, ein besserer Zugang zur Sicherheitsforschung würde es einfacher machen, irreführendes Verhalten zu verstehen. Die Gesetze der Europäischen Union zur künstlichen Intelligenz regeln hauptsächlich die Nutzung von KI durch den Menschen und verhindern nicht böswilliges Verhalten der Modelle selbst. In den USA genießt das Thema auf politischer Ebene keine Priorität.
Der Wettbewerb zwischen den Unternehmen geht weiter
Der Wettbewerb zwischen den Unternehmen hält unterdessen an. Selbst das von Amazon unterstützte Unternehmen Anthropic entwickelt ständig neue Modelle, um OpenAI zu überholen. Das lässt nicht genügend Zeit für Sicherheitstests. „Die Kapazität hat die Sicherheit und das Verständnis überholt, aber wir können diesen Trend noch umkehren“, sagte Hobbhahn. Mehr als zwei Jahre nach dem Aufsehen von ChatGPT haben Forscher ihre KI-Systeme noch immer nicht vollständig verstanden. Und ein leistungsfähigeres Modell nach dem anderen kommt auf den Markt. Die Zukunft birgt große Chancen für die Menschheit, aber auch ernsthafte Risiken. Je fortschrittlicher KI-Systeme werden, desto wichtiger wird es, die richtigen Fragen zu stellen und Transparenz zu schaffen.
ntv