Googles neuer Diffusions-KI-Agent ahmt menschliches Schreiben nach, um die Unternehmensforschung zu verbessern

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Google-Forscher haben ein neues Framework für KI-Forschungsagenten entwickelt, das führende Systeme der Konkurrenten OpenAI, Perplexity und andere bei wichtigen Benchmarks übertrifft .
Der neue Agent namens Test-Time Diffusion Deep Researcher (TTD-DR) ist von der Art und Weise inspiriert, wie Menschen schreiben, indem sie einen Prozess des Entwurfs, der Informationssuche und der iterativen Überarbeitung durchlaufen.
Das System verwendet Diffusionsmechanismen und evolutionäre Algorithmen, um umfassendere und genauere Forschungsergebnisse zu komplexen Themen zu erzielen.
Für Unternehmen könnte dieses Framework eine neue Generation maßgeschneiderter Forschungsassistenten für hochwertige Aufgaben ermöglichen, mit denen herkömmliche Retrieval Augmented Generation (RAG)-Systeme zu kämpfen haben, wie etwa die Erstellung einer Wettbewerbsanalyse oder eines Markteintrittsberichts.
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
Laut den Autoren des Dokuments waren diese realen Geschäftsanwendungsfälle das Hauptziel des Systems.
Deep Research (DR)-Agenten sind für die Bearbeitung komplexer Abfragen konzipiert, die über eine einfache Suche hinausgehen. Sie nutzen Large Language Models (LLMs) zur Planung, Tools wie die Websuche zum Sammeln von Informationen und fassen die Ergebnisse anschließend mithilfe von Testzeitskalierungstechniken wie Chain-of-Thinking (CoT), Best-of-N-Sampling und Monte-Carlo Tree Search in einem detaillierten Bericht zusammen.
Viele dieser Systeme weisen jedoch grundlegende Designbeschränkungen auf. Die meisten öffentlich verfügbaren DR-Agenten verwenden Testalgorithmen und -tools ohne eine Struktur, die menschliches kognitives Verhalten widerspiegelt. Open-Source-Agenten folgen oft einem starren linearen oder parallelen Prozess der Planung, Suche und Inhaltsgenerierung. Dies erschwert die Interaktion und gegenseitige Korrektur der verschiedenen Forschungsphasen.

Dies kann dazu führen, dass der Agent den globalen Kontext der Recherche verliert und wichtige Zusammenhänge zwischen verschiedenen Informationen übersieht.
Die Autoren des Artikels weisen darauf hin: „Dies weist auf eine grundlegende Einschränkung in der aktuellen Arbeit mit DR-Agenten hin und unterstreicht die Notwendigkeit eines kohärenteren, zweckgebundenen Rahmens für DR-Agenten, der die menschlichen Forschungskapazitäten nachahmt oder übertrifft.“
Im Gegensatz zum linearen Prozess der meisten KI-Agenten arbeiten menschliche Forscher iterativ . Sie beginnen typischerweise mit einem groben Plan, erstellen einen ersten Entwurf und durchlaufen dann mehrere Überarbeitungszyklen . Während dieser Überarbeitungen suchen sie nach neuen Informationen, um ihre Argumente zu untermauern und Lücken zu schließen.
Die Google-Forscher stellten fest, dass dieser menschliche Prozess mit dem Mechanismus eines Diffusionsmodells, ergänzt um eine Retrieval-Komponente, nachgebildet werden kann . (Diffusionsmodelle werden häufig bei der Bilderzeugung eingesetzt. Sie beginnen mit einem verrauschten Bild und verfeinern es schrittweise, bis ein detailliertes Bild entsteht.)
Die Forscher erklären: „In dieser Analogie erzeugt ein trainiertes Diffusionsmodell zunächst einen verrauschten Entwurf, und das Rauschunterdrückungsmodul überarbeitet diesen Entwurf mithilfe von Abruftools in qualitativ hochwertigere (oder höher aufgelöste) Ausgaben.“
TTD-DR basiert auf diesem Entwurf. Das Framework behandelt die Erstellung eines Forschungsberichts als Diffusionsprozess, bei dem ein anfänglicher, „unklarer“ Entwurf schrittweise zu einem ausgefeilten Abschlussbericht verfeinert wird.

Dies wird durch zwei Kernmechanismen erreicht. Der erste, den die Forscher „Denoising with Retrieval“ nennen, beginnt mit einem vorläufigen Entwurf und verbessert diesen iterativ. In jedem Schritt verwendet der Agent den aktuellen Entwurf, um neue Suchanfragen zu formulieren, ruft externe Informationen ab und integriert diese, um den Bericht durch Korrektur von Ungenauigkeiten und Hinzufügen von Details zu „entrauschen“.
Der zweite Mechanismus, die „Selbstevolution“, stellt sicher, dass jede Komponente des Agenten (Planer, Fragengenerator und Antwortsynthesizer) ihre Leistung unabhängig voneinander optimiert. In einem Kommentar gegenüber VentureBeat erklärte Rujun Han, Forscher bei Google und Co-Autor des Artikels, dass diese Evolution auf Komponentenebene entscheidend sei, da sie die „Berichtsbereinigung effektiver“ mache. Dies gleicht einem Evolutionsprozess, bei dem jeder Teil des Systems seine spezifische Aufgabe zunehmend besser erfüllt und so einen hochwertigeren Kontext für den Hauptrevisionsprozess liefert.

„Das komplexe Zusammenspiel und die synergetische Kombination dieser beiden Algorithmen sind entscheidend für die Erzielung hochwertiger Forschungsergebnisse“, so die Autoren. Dieser iterative Prozess führt unmittelbar zu Berichten, die nicht nur präziser, sondern auch logisch schlüssiger sind. Wie Han anmerkt, ist die Leistungssteigerung ein direktes Maß für die Fähigkeit des Modells, gut strukturierte Geschäftsdokumente zu erstellen, da es auf seine Nützlichkeit, die Flüssigkeit und Kohärenz umfasst, evaluiert wurde.
Laut dem Dokument ist der daraus resultierende Forschungsbegleiter „in der Lage, hilfreiche und umfassende Berichte für komplexe Forschungsfragen in verschiedenen Branchenbereichen zu erstellen, darunter Finanzen, Biomedizin, Freizeit und Technologie“, und steht damit in derselben Klasse wie Deep-Research-Produkte von OpenAI, Perplexity und Grok.
Zum Erstellen und Testen ihres Frameworks verwendeten die Forscher das Agent Development Kit (ADK) von Google, eine erweiterbare Plattform zur Orchestrierung komplexer KI-Workflows mit Gemini 2.5 Pro als zentralem LLM (Sie können es jedoch gegen andere Modelle austauschen).
Sie haben TTD-DR mit führenden kommerziellen und Open-Source-Systemen verglichen, darunter OpenAI Deep Research , Perplexity Deep Research, Grok DeepSearch und dem Open-Source-System GPT-Researcher .
Die Evaluierung konzentrierte sich auf zwei Hauptbereiche. Zur Erstellung ausführlicher Berichte nutzten sie den DeepConsult-Benchmark , eine Sammlung geschäfts- und beratungsbezogener Eingabeaufforderungen, sowie ihren eigenen LongForm Research-Datensatz. Zur Beantwortung von Multi-Hop-Fragen, die umfangreiche Such- und Denkprozesse erfordern, testeten sie den Agenten anhand anspruchsvoller akademischer und realer Benchmarks wie Humanity's Last Exam (HLE) und GAIA .
Die Ergebnisse zeigten, dass TTD-DR seine Konkurrenten durchweg übertraf. Im direkten Vergleich mit OpenAI Deep Research zur Generierung ausführlicher Berichte erreichte TTD-DR Erfolgsraten von 69,1 % und 74,5 % bei zwei verschiedenen Datensätzen. Es übertraf das System von OpenAI auch bei drei separaten Benchmarks, die Multi-Hop-Reasoning zur Ermittlung präziser Antworten erforderten, mit Leistungssteigerungen von 4,8 %, 7,7 % und 1,7 %.

Während sich die aktuelle Forschung auf textbasierte Berichte mithilfe der Websuche konzentriert, ist das Framework hochgradig anpassungsfähig. Han bestätigte, dass das Team plant, die Arbeit auszuweiten und weitere Tools für komplexe Unternehmensaufgaben zu integrieren.
Ein ähnlicher „Testzeitdiffusions“-Prozess könnte zum Generieren von komplexem Softwarecode , zum Erstellen eines detaillierten Finanzmodells oder zum Entwerfen einer mehrstufigen Marketingkampagne verwendet werden, bei der ein anfänglicher „Entwurf“ des Projekts iterativ mit neuen Informationen und Feedback aus verschiedenen Spezialtools verfeinert wird.
„Alle diese Tools können auf natürliche Weise in unser Framework integriert werden“, sagte Han und deutete an, dass dieser entwurfszentrierte Ansatz zu einer grundlegenden Architektur für eine breite Palette komplexer, mehrstufiger KI-Agenten werden könnte.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat