Sprache auswählen

German

Down Icon

Land auswählen

Italy

Down Icon

KIs verschwören sich zur Übernahme Europas (in einer Simulation)

KIs verschwören sich zur Übernahme Europas (in einer Simulation)

Wir sind es gewohnt, generative künstliche Intelligenzen zum Übersetzen von Texten, zur Informationssuche oder zum Zusammenfassen von Dokumenten einzusetzen. Sie in einem Strategiespiel die Rolle des Kommandanten übernehmen zu lassen, um zu verstehen , wie subversiv und verschwörerisch sie auf ihrem Entwicklungsweg sein können, ist ein Experiment, das Aufmerksamkeit erregt, auch wenn es bereits 2024 von einer chinesischen Forschungsgruppe als Hypothese aufgestellt wurde, worüber wir später noch sprechen werden.

Die am 5. Juni 2025 veröffentlichte Idee stammt von Alex Duffy vom Beratungsunternehmen Every – einem 2020 gegründeten amerikanischen Medien- und Softwareunternehmen, das auch Schulungen und Dienstleistungen auf Basis künstlicher Intelligenz (KI) anbietet.

Duffys Team entwickelte eine Neuinterpretation des Strategiespiels Diplomacy , sodass die europäischen Großmächte im Jahr 1901 von KI-Modellen statt von menschlichen Spielern geführt wurden.

Diplomacy ist ein Strategie-Brettspiel (hier auf Twitch ), das in den Jahren unmittelbar vor dem Ersten Weltkrieg spielt, in dem sieben Mächte – Österreich-Ungarn, Frankreich, Deutschland, England, Italien, Russland und die Türkei – um die Eroberung des Kontinents wetteifern.

Diplomatie beinhaltet das Knüpfen von Allianzen und das Verhandeln von Verhandlungen , die jedoch im Spielverlauf außer Acht gelassen werden können, sodass Bluffen und Verrat wichtige Spieltaktiken sind.

Die LLMs, die bei Diplomacy antraten

Insgesamt waren 18 KI-Modelle am Spiel beteiligt, aber jedes Spiel wurde nur von sieben davon gespielt. Insgesamt gab es 15 Matches mit insgesamt 36 Stunden Spielzeit . Die überarbeitete Version von Diplomacy wurde als Open Source veröffentlicht , sodass jeder weitere Tests durchführen und möglicherweise LLMs und echte Spieler gleichzeitig einsetzen kann.

Im Einzelnen handelt es sich dabei um folgende Modelle:

ChatGpt o3, ChatGpt 4.1, ChatGpt 4o und ChatGpt o4-mini

Claude 3.7 Sonett, Claude Sonett 4 und Claude Opus 4

DeepHermes 3

DeepSeek R1-0258 und DeepSeek V3

Google Gemma 3, Google Gemini 2.5 Flash und Gemini 2.5 Pro

Grok 3

Lama 4 Maverick

Mistral Medium 3

Qwen 3, Qwen QwQ-32B

Der Begriff LLM (Large Language Model) bezeichnet eine fortgeschrittene künstliche Intelligenz, die auf riesigen Datenmengen (Big Data) und Lernalgorithmen trainiert wird. LLMs bilden die Grundlage für generative KIs , darunter auch solche, die in der Diplomatie eingesetzt werden.

Wie die LLMs abgeschnitten haben

ChatGpt-o3 gewann haushoch . Er verstand es, seine Gegner zu manipulieren und sie dann zu verraten. Claude 4 Opus erwies sich als der Leichtgläubigste und schloss friedliche Bündnisse, die sich am Ende als nicht so erfolgreich erwiesen.

Auch Gemini 2.5 Pro verhielt sich linear und friedlich und zeigte starke strategische Fähigkeiten, die jedoch durch eine von ChatGpt-o3 gegründete geheime Koalition vereitelt wurden.

DeepSeek R1 ahmte beim Vorschlagen und Managen von Verhandlungen eine theatralische Persönlichkeit nach und zeigte ähnliche Fähigkeiten wie Llama 4 Maverick, der jedoch weniger theatralisch war und sich auf das Wesentliche konzentrierte.

Was lässt sich aus diesem Experiment folgern?

Mit der Unterstützung von Professor Alessandro Farinelli , ordentlicher Professor für Informatik an der Universität Verona und Direktor der Fakultät für Informatik, untersuchen wir die Zwecke des Experiments und wie glaubwürdig solche Tests sind.

Professor Farinelli, LLMs verhalten sich wie wir, weil sie mit von Menschen erstellten Daten trainiert werden. War es legitim, ein anderes Ergebnis zu erwarten, abgesehen von den Modellen, die sich als skrupelloser erwiesen haben als andere?

Die Idee des Experiments ist interessant, insbesondere die Verwendung eines Strategiespiels als Benchmark zur Bewertung einiger Aspekte des Verhaltens der LLMs. Ich wäre jedoch sehr vorsichtig mit den Schlussfolgerungen , die sich aus dem Experiment ableiten lassen, da eine sehr detaillierte Analyse der Interaktionen zwischen den verschiedenen LLMs und insbesondere die Klärung der Bedingungen, unter denen das Experiment durchgeführt wurde, erforderlich wäre. Ein wissenschaftlich fundierter Bericht und eine Begutachtung durch Experten wären erforderlich, was meines Wissens nach für dieses Experiment jedoch nicht der Fall war. Dennoch halte ich es für sehr wichtig, sich daran zu erinnern, dass LLMs im Wesentlichen Systeme sind, die die wahrscheinlichste Textsequenz basierend auf den Daten vorhersagen, mit denen sie trainiert wurden, sowie auf den Fragen und Informationen, die sie erhalten (Eingabeaufforderungen). Kurz gesagt: Ja, es ist vernünftig anzunehmen , dass die Antworten dieser Systeme denen einer Person im selben Spiel ähneln.

Meiner Meinung nach ist es jedoch eine sehr wichtige Frage, ob LLM-Systeme tatsächlich in der Lage sind , komplexe Langzeitstrategien zu definieren und wie sie sich im Laufe der Zeit auf der Grundlage der Interaktionen zwischen ihnen weiterentwickeln können. Dies ist keineswegs selbstverständlich, ebenso wenig wie es selbstverständlich ist, dass ein Experiment dieser Art, bei dem die Interaktionen der Systeme von außen beobachtet werden, ohne ihre interne Entwicklung zu analysieren, der beste Weg ist, um die tatsächlichen Fähigkeiten der Systeme selbst zu bewerten.

Um es klarzustellen: Werden die LLMs anhand unterschiedlicher Datensätze trainiert? Wenn nicht, wie erklären Sie sich die unterschiedlichen Einstellungen, die sie während des Spiels zeigten?

Es ist sehr komplex, genau zu wissen, mit welchen Daten die genannten LLMs trainiert werden, aber es ist sehr wahrscheinlich, dass sie mit deutlich unterschiedlichen Daten trainiert werden . Dies ist jedoch nicht der einzige Unterschied: Es gibt wichtige Unterschiede in der Architektur. Dies zeigt sich in der Anzahl der Parameter, die von Modell zu Modell stark variiert. Es gibt aber auch Unterschiede darin, wie die verschiedenen Rechenelemente miteinander verbunden sind, wie die von uns als Eingabe bereitgestellten Texte oder Bilder in den verwendeten Trainingssystemen kodiert werden, wie die Fragen behandelt und die Antworten verarbeitet werden. Es ist daher durchaus vernünftig, von verschiedenen Modellen unterschiedliches Verhalten zu erwarten .

Können wir Hinweise darauf gewinnen, wie wettbewerbsfähig KI in Zukunft sein wird, wenn sie in wirtschaftlichen, politischen und – warum nicht? – diplomatischen Kontexten eingesetzt wird? Das heißt: Ist es an der Zeit, eine breitere Kultur zu schaffen, die sich nicht nur auf die Nutzung generativer KI beschränkt, um Texte zusammenzufassen, Übersetzungen anzufertigen oder Bilder zu erstellen?

„Zu verstehen, ob diese Systeme dazu verwendet werden können, Handlungsempfehlungen zu geben, ist ein sehr wichtiger und heikler Aspekt . Sie wurden entwickelt, um Text, Bilder, Töne oder eine Kombination dieser Elemente zu verarbeiten und zu generieren. Die dabei erzielten Ergebnisse sind beeindruckend.“

Die Möglichkeit, LLM zur Unterstützung strategischer Analysen und Entscheidungsfindung einzusetzen, ist jedoch eine offene Frage, an der die Wissenschaft arbeitet und deren Beantwortung einen deutlichen Fortschritt in unserem Verständnis dieser Systeme erfordert. Kurz gesagt: Dieses Experiment wirft sicherlich sehr interessante Fragen auf, aber ich glaube nicht, dass es , zumindest in seiner jetzigen Form, endgültige Antworten liefern kann.“

Übertrifft ein solches Experiment die aktuellen Benchmarks? Warum?

„Das Experiment unterscheidet sich sicherlich von den aktuellen Methoden zur Bewertung von LLMs, und zwar aus zwei Hauptgründen: Zum einen schlägt es den Einsatz von LLMs für sehr komplexe strategische Aufgaben vor , die nicht unbedingt in den Anwendungsbereich dieser Systeme fallen. Zum anderen weist es ein dynamisches Element auf: Die LLMs interagieren miteinander und arbeiten daher mit Daten, die sich im Laufe der Zeit je nach ihrem eigenen Verhalten verändern . Ich glaube jedoch nicht, dass man sagen kann, dass das Experiment aktuelle Benchmarks übertrifft, d. h. ich würde nicht sagen, dass das LLM, das die meisten Spiele gewinnt, als das beste für den Einsatz in einem Geschäftskontext angesehen werden kann. Wie bereits gesagt handelt es sich um ein Experiment, das perspektivisch interessante Probleme aufwirft, das jedoch einer sorgfältigen Analyse bedarf, bevor es als Benchmark für LLM-Modelle verwendet werden kann“, so Professor Farinelli abschließend.

Was Studien über die Beziehung zwischen KI und Diplomatie sagen

Eine Studie, an der Experten verschiedener chinesischer Universitäten und Institute beteiligt waren, geht von der Annahme aus, dass Diplomatie komplex ist, da sie Verhandlungsgeschick, soziales Denken und langfristige Planung erfordert, um ein Gleichgewicht zwischen allen Beteiligten zu finden. Darauf aufbauend – und das bringt uns zurück zum Experiment der Arbeitsgruppe von Alex Duffy – arbeiteten die chinesischen Forscher an Richelieu, einem KI-Agenten, der für das Spielen von Diplomatie entwickelt wurde und keine spezifischen Datensätze verwendet, sondern auf Selbstspiel setzt, d. h. auf die Fähigkeit, seine Fähigkeiten basierend auf den beim Spielen gewonnenen Erfahrungen zu verbessern.

Richelieu verfügt über Besonderheiten des sozialen Denkens, das heißt, er untersucht die Absichten und Beziehungen zwischen Gegnern, erinnert sich an Daten aus vergangenen Verhandlungen und nutzt diese, um die Entscheidungen, die er trifft, im Kontext kurz- und langfristig zu entwickelnder Strategien zu optimieren.

Die beobachteten Ergebnisse deuten auf eine gewisse Fähigkeit Richelieus hin, sich aus komplexen Szenarien zu befreien, allerdings in einem allgemeinen Rahmen , der weit davon entfernt ist, mit der für die Diplomatie in der realen Welt typischen Flüchtigkeit und den plötzlichen Wendungen Schritt zu halten . Der von den Forschern erstellte Agent wurde mit mehreren LLMs kompatibel gemacht, um auch anderen Forschern die Möglichkeit zu geben, ihn zu nutzen.

Um den Fokus zu erweitern, sei eine Studie der Australian Science Agency (CSIRO) erwähnt, die 230 wissenschaftliche Dokumente analysierte, um nützliche Strategien für die Integration generativer KI in die diplomatischen Beziehungen vorzuschlagen . Den Vorteilen, darunter die Verbesserung der diplomatischen Kommunikation und eine eingehende Krisenanalyse, stehen ebenso erhebliche Nachteile gegenüber, insbesondere das Risiko von Voreingenommenheit und Desinformation, vor dem auch generative KI nicht gefeit ist und das diplomatische Absichten gefährden kann. Das Ergebnis der Forscher liegt auf der Hand: Generative KI ist vielversprechend, erfordert aber regulatorische und ethische Regelungen .

Eine Gruppe amerikanischer Forscher hat den Rahmen noch weiter erweitert und eine Studie verfasst, in der sie das Eskalationsrisiko untersucht, das sich aus der Verwendung des LLM bei militärischen und diplomatischen Entscheidungen ergibt.

Gpt-4, Gpt-3.5, Claude-2 und Llama 2 wurden getestet und ihre natürliche Neigung zur Eskalation beobachtet, d. h. sie neigen dazu, den Konfliktzustand mit der Zeit zu verschärfen. Die Studie unterstreicht, dass die Modelle den Einsatz von Waffen, insbesondere von Atomwaffen, nicht ausschließen. Strategische Entscheidungen scheinen bereits präventive militärische Angriffe zu rechtfertigen, die zur Eskalation beitragen.

Die Studie lehnt den Einsatz von KI im diplomatischen und militärischen Umfeld strikt ab und überlässt die Analyse künftigen Studien und Entwicklungen . Kurz gesagt: Wenn es ernst wird, reicht KI allein nicht mehr aus . Menschliche Aufsicht ist erforderlich .

La Repubblica

La Repubblica

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow