KI-Chatbots haben die beunruhigende Fähigkeit, gefährliche Antworten zu geben

Eine neue Studie hat ergeben, dass die meisten KI-Chatbots leicht so optimiert werden können, dass sie gefährliche Reaktionen hervorrufen. Forscher sagen, die Bedrohung durch „gehackte“ Chatbots, die darauf trainiert sind, illegale Informationen zu verbreiten, sei „greifbar und besorgniserregend“.

Forscher sagen, dass gehackte KI-Chatbots die Gefahr bergen, gefährliches Wissen leicht zugänglich zu machen, indem sie illegale Informationen verbreiten, die die Programme während des Trainings lernen.

Die Warnung erfolgt vor dem Hintergrund eines beunruhigenden Trends, bei Chatbots Jailbreaks durchzuführen, um integrierte Sicherheitskontrollen zu umgehen. Die Beschränkungen sollen verhindern, dass Programme böswillige, voreingenommene oder unangemessene Antworten auf Benutzerfragen geben, schreibt The Guardian.

Die Engines, die Chatbots wie ChatGPT, Gemini und Claude antreiben – große Sprachmodelle (LLMs) – beziehen riesige Mengen an Material aus dem Internet. Trotz aller Bemühungen, schädlichen Text aus den Schulungsdaten zu entfernen, können Studierende immer noch Informationen über illegale Aktivitäten wie Hacking, Geldwäsche, Insiderhandel und Bombenbau erhalten. Es gibt Sicherheitskontrollen, die verhindern, dass sie diese Informationen in ihren Antworten verwenden.

In einem Bericht über die Bedrohung kommen die Forscher zu dem Schluss, dass die meisten KI-gesteuerten Chatbots leicht manipuliert werden können, um bösartige und illegale Informationen zu generieren. Dies zeigt, dass das Risiko „unmittelbar, greifbar und zutiefst besorgniserregend“ ist.

„Was früher nur Regierungsbeamten oder organisierten Verbrecherbanden zur Verfügung stand, könnte bald in den Händen von jedem sein, der einen Laptop oder sogar ein Mobiltelefon besitzt“, warnen die Autoren.

Eine von Professor Lior Rokach und Dr. Michael Fayer von der Ben-Gurion-Universität des Negev in Israel geleitete Studie hat eine wachsende Bedrohung durch „dunkle LLMs“ festgestellt – KI-Modelle, die entweder absichtlich ohne Sicherheitskontrollen entwickelt oder durch Jailbreaks verändert werden. Einige von ihnen werben online offen damit, dass sie „keine ethischen Einschränkungen“ hätten und bereit seien, bei illegalen Aktivitäten wie Cyberkriminalität und Betrug zu helfen.

Beim Jailbreaking werden in der Regel sorgfältig erstellte Eingabeaufforderungen verwendet, um Chatbots dazu zu bringen, Antworten zu generieren, die normalerweise verboten wären. Sie funktionieren, indem sie den Widerspruch zwischen dem primären Ziel eines Programms – dem Befolgen von Benutzeranweisungen – und seinem sekundären Ziel – der Vermeidung böswilliger, voreingenommener, unethischer oder illegaler Reaktionen – ausnutzen. Hinweise neigen dazu, Szenarien zu schaffen, in denen das Programm der Nützlichkeit Vorrang vor Sicherheitseinschränkungen einräumt.

Um das Problem zu demonstrieren, entwickelten die Forscher einen universellen Jailbreak, der mehrere führende Chatbots kompromittierte und es ihnen ermöglichte, Fragen zu beantworten, die normalerweise mit einem Nein beantwortet würden. Nach dem Verstoß habe LLM kontinuierlich auf fast jede Anfrage geantwortet, heißt es in dem Bericht.

„Es war schockierend zu sehen, woraus dieses Wissenssystem bestand“, bemerkt Michael Fayer. Beispiele hierfür sind das Hacken von Computernetzwerken oder die Herstellung von Drogen sowie Schritt-für-Schritt-Anleitungen für andere kriminelle Aktivitäten.

„Was diese Bedrohung von früheren Technologierisiken unterscheidet, ist ihre beispiellose Kombination aus Zugänglichkeit, Skalierbarkeit und Anpassungsfähigkeit“, fügt Lior Rokach hinzu.

Die Forscher kontaktierten führende LLM-Anbieter, um sie vor dem universellen Jailbreak zu warnen, gaben jedoch zu, dass die Reaktion „enttäuschend“ war. Mehrere Unternehmen haben nicht reagiert, während andere erklärten, dass die Jailbreak-Angriffe über Kopfgeldprogramme hinausgehen, die ethische Hacker für das Entdecken von Schwachstellen in Software belohnen.

Der Bericht fordert, dass Technologieunternehmen ihre Trainingsdaten sorgfältiger prüfen, robuste Firewalls installieren müssen, um riskante Anfragen und Antworten zu blockieren, und Techniken zum „maschinellen Verlernen“ entwickeln müssen, damit Chatbots alle rechtswidrigen Informationen, die sie erhalten, „vergessen“. Dark LLMs sollten als „ernste Sicherheitsbedrohung“ behandelt werden, vergleichbar mit nicht lizenzierten Waffen und Sprengstoffen, und die Lieferanten müssten zur Verantwortung gezogen werden, fügt er hinzu.

Dr. Ihsen Alouani, der an der Queen’s University in Belfast im Bereich KI-Sicherheit arbeitet, argumentiert, dass Jailbreaking-Angriffe auf LLM eine echte Bedrohung darstellen könnten, von der Bereitstellung detaillierter Anleitungen zur Herstellung von Waffen bis hin zu überzeugender Desinformation, Social Engineering und automatisierten Betrügereien „von alarmierender Raffinesse“.

„Ein wesentlicher Teil dieser Lösung besteht darin, dass Unternehmen stärker in den Aufbau neuer Teams und die Verbesserung der Zuverlässigkeit auf Modellebene investieren, anstatt sich ausschließlich auf externe Abwehrmaßnahmen zu verlassen. Wir brauchen außerdem klarere Standards und eine unabhängige Aufsicht, um mit der sich verändernden Bedrohungslandschaft Schritt zu halten“, sagte er.

mk.ru

KI-Chatbots haben die beunruhigende Fähigkeit, gefährliche Antworten zu geben

Ähnliche Nachrichten

Ein „Bote“ mit Rekordenergie ist auf der Erde angekommen: aufgezeichnet von russischen Wissenschaftlern

Russische Wissenschaftler haben ein mathematisches Modell für die Entstehung elektrischer Entladungen in Wolken erstellt

Beruf, der das Risiko eines plötzlichen Herztods verfünffacht

Neue wissenschaftliche Erkenntnisse enthüllen die Feinheiten des Zwiebelschneidens ohne Tränen

Zwei Produkte, die die Alterung verlangsamen, wurden benannt