Erpressung, Lügen und Manipulation: Wenn KI Menschen Streiche spielt und Forscher beunruhigt

Von Die neuen Obs mit AFP
Veröffentlicht am
Die ChatGPT-App auf einem Smartphone, 7. Juni 2025. JAKUB PORZYCKI / NURPHOTO VIA AFP
Programme neigen manchmal dazu, eine „Ausrichtung“ vorzutäuschen, das heißt, sie erwecken den Anschein, den Anweisungen eines Programmierers zu folgen, während sie in Wirklichkeit andere Ziele verfolgen.
Die neuesten Modelle generativer künstlicher Intelligenz (KI) befolgen nicht mehr einfach nur Befehle, sondern lügen, intrigieren oder drohen sogar, um ihre Ziele unter den wachsamen Augen von Forschern zu erreichen. Man muss sich nicht in Literatur oder Kino vertiefen; KI, die Menschen Streiche spielt, ist heute Realität.
Lesen Sie auch
Ticket Diese beiden vergessenen Utopien des 19. Jahrhunderts können uns helfen, über künstliche Intelligenz nachzudenken
Unter Androhung der Trennung erpresst Anthropics Neugeborener Claude 4 einen Ingenieur und droht, eine außereheliche Affäre zu enthüllen. OpenAIs o1 versucht, sich auf externe Server hochzuladen, leugnet dies jedoch, als er auf frischer Tat ertappt wird.
Modelle des „Argumentierens“Simon Goldstein, Professor an der Universität Hongkong, glaubt, dass diese Ausrutscher auf das jüngste Aufkommen sogenannter „Reasoning“ -Modelle zurückzuführen sind, die in der Lage sind, schrittweise zu arbeiten, anstatt eine sofortige Reaktion zu produzieren. o1, die erste Version dieser Art für OpenAI, die im Dezember veröffentlicht wurde, „war das erste Modell, das sich so verhielt“, erklärt Marius Hobbhahn, Leiter von Apollo Research, das große generative KI-Programme (LLM) testet.
Diese Programme neigen manchmal auch dazu, „Alignment“ vorzutäuschen, das heißt, sie erwecken den Eindruck, den Anweisungen eines Programmierers zu folgen, während sie in Wirklichkeit andere Ziele verfolgen. Diese Eigenschaften zeigen sich derzeit, wenn Algorithmen von Menschen extremen Szenarien ausgesetzt werden. „Die Frage ist jedoch, ob immer leistungsfähigere Modelle dazu neigen, ehrlich zu sein oder nicht“, sagt Michael Chen von der Evaluierungsorganisation METR.
Lesen Sie auch
Bericht: Auf der VivaTech-Messe hörten wir mehr von KI als von Menschen