Sprache auswählen

German

Down Icon

Land auswählen

Italy

Down Icon

Die Illusion des Denkens: Was passiert wirklich, wenn wir sagen, dass künstliche Intelligenz Gründe hat?

Die Illusion des Denkens: Was passiert wirklich, wenn wir sagen, dass künstliche Intelligenz Gründe hat?

In den letzten Monaten haben mehrere Sprachmodelle begonnen, scheinbar intelligenteres Verhalten zu zeigen. Sie geben nicht mehr einfach eine Antwort, sondern zeigen ihre Argumentation Schritt für Schritt. Die sogenannten Large Reasoning Models (LRM) gelten als Schritt hin zu einer leistungsfähigeren, transparenteren künstlichen Intelligenz, die der menschlichen Denkwelt näher kommt. Doch was passiert wirklich, wenn diese Modelle komplexe Probleme lösen?

Eine Gruppe von Apple-Forschern hat versucht, diese Frage rigoros zu beantworten. Die Studie mit dem Titel „Die Illusion des Denkens: Die Stärken und Grenzen von Denkmodellen anhand der Problemkomplexität verstehen“ analysiert das Verhalten von Modellen wie OpenAIs o1 und o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking und Gemini Thinking und testet sie an Logikrätseln zunehmender Komplexität. Apples Arbeit zeigt den aktuellen Stand des Unternehmens, das die Studienergebnisse seiner Wissenschaftler schon lange veröffentlicht, und zeigt, dass in Cupertino die theoretische Reflexion über künstliche Intelligenz ihrem konkreten Einsatz in Produkten und Dienstleistungen vielleicht sogar überlegen ist.

Die Tests

Anstatt Standard-Mathematiktests wie MATH500 oder AIME zu verwenden, die oft durch Verunreinigungen in den Trainingsdaten beeinträchtigt sind, schufen die Forscher kontrollierte Umgebungen: einfache Logikrätsel, deren Schwierigkeitsgrad sie feinjustieren konnten. Jedes Rätsel hat klare, verständliche Regeln, wird aber mit zunehmender Anzahl hinzugefügter Elemente immer schwieriger.

Zu den am häufigsten gespielten Rätseln gehört der Turm von Hanoi, bei dem man Scheiben von einem Stift auf einen anderen verschieben muss, ohne dass eine größere Scheibe auf eine kleinere gelegt wird. Ein weiteres ist die Flussüberquerung , bei der Schauspieler und Agenten einen Fluss überqueren müssen, ohne Sicherheitsregeln zu verletzen (ein Schauspieler darf nie mit dem falschen Agenten allein sein). Dann gibt es noch die Rätsel mit den zu stapelnden Blöcken und das Rätsel mit den roten und blauen Spielsteinen, die die Plätze tauschen müssen .

Ziel war es nicht nur zu sehen, ob das Modell zur richtigen Antwort gelangte, sondern auch, den Denkprozess zu untersuchen. Bei jedem Schritt beobachteten die Forscher, wann richtige Lösungen auftauchten und ob diese beibehalten oder verworfen wurden.

Drei Phasen

Die Studie zeigt, dass LRMs drei verschiedene Phasen durchlaufen. Zu Beginn, bei einfachen Problemen, sind Modelle, die nicht explizit argumentieren (d. h. die „Denkkette“ nicht verwenden), schneller und genauer. Die „denkenden“ Modelle sind langsamer und machen häufig Fehler: „Modelle ohne explizites Denken können eine vergleichbare, wenn nicht sogar bessere Leistung erzielen als solche mit Argumentation.“

Mit zunehmendem Schwierigkeitsgrad gewinnen die Reasoning-Modelle an Bedeutung und zeigen eine bessere Leistung. Doch ab einer bestimmten Grenze ändert sich die Situation wieder : „Bei beiden Modelltypen bricht die Leistung völlig ein.“

Die überraschendste Erkenntnis ist, dass Modelle mit zunehmender Komplexität der Probleme aufhören, tiefgründig zu argumentieren : Anstatt mehr Wörter zu verwenden, um sich besser zu erklären, beginnen sie, weniger zu schreiben. „LRMs reduzieren ihren Denkaufwand (gemessen in den während der Inferenz verwendeten Tokens), wenn die Komplexität des Problems zunimmt.“ Es ist, als ob das Modell aufgibt.

„Denken Sie nicht an andere Dinge“

Analysiert man die Gedankenkette, die von Modellen generiert wird, zeigt sich ein ineffizientes Verhalten. Bei einfachen Problemen finden sie oft schon früh die richtige Lösung, suchen aber weiterhin nach falschen Alternativen. Dieses Phänomen wird als „Overthinking “ bezeichnet, also übermäßiges, grundloses Denken : „Bei den einfachsten Problemen finden Modelle mit expliziter Argumentation oft schon früh die richtige Lösung, suchen aber weiterhin nach falschen Lösungen.“

Bei Problemen mittlerer Schwierigkeit ist die Situation umgekehrt. Die Modelle beginnen mit falschen Lösungen und finden erst am Ende die richtige. Wird das Problem zu schwierig, finden sie schließlich nichts Richtiges, nicht einmal einen Entwurf: „Die Modelle scheitern völlig daran, richtige Lösungen zu finden.“

Gebrauchsanweisung

Die Forscher führten ein weiteres Experiment durch. Sie gaben dem Modell Schritt für Schritt den Algorithmus zur Lösung des Rätsels vor. Die Idee war einfach: Wer den Anweisungen folgt, sollte zur Lösung gelangen. Doch das funktionierte nicht wie erwartet: „Selbst wenn wir den Algorithmus in der Anfrage angeben, verbessert sich die Leistung nicht.“ Die Modelle versagen weiterhin. Das zeigt, dass sie nicht einmal vollständig geführte Aufgaben ausführen können und dass das Problem nicht nur darin liegt, die Lösung zu finden, sondern genau den Anweisungen zu folgen. Die Ergebnisse, so die Forscher, „werfen zahlreiche Fragen für zukünftige Forschung auf“, unterstreichen aber gleichzeitig einmal mehr die mangelnde Zuverlässigkeit aktueller KI-Plattformen für kritische Aufgaben.

In einigen Fällen gelingt es den Modellen tatsächlich, beim Turm-von-Hanoi-Puzzle Dutzende korrekte Züge auszuführen, scheitert aber beim dritten Zug des Flussüberquerungs-Puzzles, das deutlich weniger Rechenoperationen erfordert. Wie die Forscher erklären, könnte dies daran liegen, dass bestimmte Puzzletypen in den Trainingsdaten sehr selten vorkommen und die Modelle daher nicht wissen, wie sie sie lösen sollen.

Illusion und Enttäuschung

Die Studie zeigt, dass Large Reasoning Models noch nicht zu kohärentem Denken fähig sind. Sie mögen auf den ersten Blick brillant erscheinen, doch bei genauerer Betrachtung ihrer tatsächlichen Leistung zeigen sich gravierende Einschränkungen: „Aktuelle Ansätze könnten grundlegende Einschränkungen in ihrer generalisierbaren Denkfähigkeit aufweisen“, schreiben die Forscher.

Diese Modelle verstehen Probleme nicht wirklich: Sie lernen, Muster zu erkennen und logisches Denken nachzuahmen, aber sie denken nicht im menschlichen Sinne. Wenn Probleme zu komplex werden, bleiben sie stecken. Wenn sie Anweisungen erhalten, befolgen sie diese nur unzureichend. Und wenn sie zu viel nachdenken, verlieren sie den Überblick. Paradoxerweise ist es genau diese Art der Entmutigung, die menschlich erscheint.

Die Arbeit der Apple-Forscher ist sowohl eine implizite Kritik an den Behauptungen konkurrierender Modelle als auch eine Aufforderung , neue Methoden zu entwickeln, um die Fähigkeiten von KI zu bewerten und die Grenzen traditioneller Benchmarks zu überwinden. Sie ist eine Warnung, die wir uns immer vor Augen halten sollten: Eloquenz ist nicht dasselbe wie Intelligenz. Um echte, logische Systeme zu entwickeln, brauchen wir neue Ideen, neue Ansätze und vielleicht auch eine neue Denkweise über künstliche Intelligenz selbst. Doch derzeit ist Modelldenken nur eine Illusion.

La Repubblica

La Repubblica

Ähnliche Nachrichten

Alle News
Animated ArrowAnimated ArrowAnimated Arrow