Googles AlphaEvolve: Der KI-Agent, der 0,7 % der Rechenleistung von Google zurückgewonnen hat – und wie man ihn kopiert

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren
Das neue AlphaEvolve von Google zeigt, was passiert, wenn ein KI-Agent von der Labordemo in die Produktion übergeht, und eines der talentiertesten Technologieunternehmen dahinter treibt dies voran.
Das von Googles DeepMind entwickelte System schreibt kritischen Code selbstständig um und amortisiert sich bereits bei Google. Es brach einen 56 Jahre alten Rekord in der Matrizenmultiplikation (dem Kern vieler Machine-Learning-Workloads) und sicherte 0,7 Prozent der Rechenkapazität in den globalen Rechenzentren des Unternehmens.
Diese Erfolge sind zwar wichtig, aber die tiefere Lektion für Technologieführer in Unternehmen ist, wie AlphaEvolve sie umsetzt. Seine Architektur – Controller, Schnellentwurfsmodelle, Deep-Thinking-Modelle, automatisierte Evaluatoren und versionierter Speicher – veranschaulicht die Art von produktionsreifer Infrastruktur, die den sicheren Einsatz autonomer Agenten in großem Maßstab ermöglicht.
Googles KI-Technologie ist wohl unübertroffen . Die Herausforderung besteht darin, herauszufinden, wie man daraus lernen oder sie sogar direkt nutzen kann. Google kündigt ein Early-Access-Programm für akademische Partner an und prüft eine „breitere Verfügbarkeit “, Details dazu sind jedoch noch rar. Bis dahin dient AlphaEvolve als Best-Practice-Vorlage: Für Agenten, die hochwertige Workloads bearbeiten, sind vergleichbare Orchestrierungen, Tests und Sicherheitsvorkehrungen erforderlich.
Betrachten wir nur den Gewinn im Rechenzentrum. Google nennt die zurückgewonnenen 0,7 % nicht mit einem Preisschild, aber die jährlichen Investitionsausgaben belaufen sich auf mehrere zehn Milliarden Dollar . Selbst eine grobe Schätzung geht von Einsparungen im dreistelligen Millionenbereich jährlich aus – genug, um, wie der unabhängige Entwickler Sam Witteveen in unserem jüngsten Podcast anmerkte, die Schulung eines der Flaggschiff-Modelle von Gemini zu finanzieren, die für eine Version wie Gemini Ultra schätzungsweise über 191 Millionen Dollar kostet.
VentureBeat berichtete Anfang dieser Woche als Erster über die AlphaEvolve-Neuigkeiten . Jetzt gehen wir tiefer ins Detail: Wie das System funktioniert, wo die technischen Anforderungen wirklich liegen und welche konkreten Schritte Unternehmen unternehmen können, um etwas Vergleichbares zu bauen (oder zu kaufen).
AlphaEvolve läuft auf einem Agenten-Betriebssystem – einer verteilten, asynchronen Pipeline, die für kontinuierliche, skalierbare Verbesserungen entwickelt wurde. Seine Kernkomponenten sind ein Controller, zwei große Sprachmodelle (Gemini Flash für die Breite; Gemini Pro für die Tiefe), eine versionierte Programmspeicherdatenbank und eine Reihe von Evaluierungs-Workern, die alle auf hohen Durchsatz und nicht nur auf geringe Latenz ausgelegt sind.

Konzeptionell ist diese Architektur nicht neu, die Umsetzung jedoch schon. „Die Umsetzung ist einfach unglaublich gut“, sagt Witteveen.
Das AlphaEvolve- Papier beschreibt den Orchestrator als einen „evolutionären Algorithmus, der schrittweise Programme entwickelt, die das Ergebnis der automatisierten Bewertungsmetriken verbessern“ (S. 3); kurz gesagt, eine „autonome Pipeline von LLMs, deren Aufgabe es ist, einen Algorithmus durch direkte Änderungen am Code zu verbessern“ (S. 1).
Fazit für Unternehmen: Wenn Ihre Agentenpläne unbeaufsichtigte Ausführungen hochwertiger Aufgaben beinhalten, planen Sie eine ähnliche Infrastruktur ein: Jobwarteschlangen, einen versionierten Speicher, Service-Mesh-Tracing und sicheres Sandboxing für jeglichen Code, den der Agent erstellt.
Ein Schlüsselelement von AlphaEvolve ist sein rigoroses Evaluierungsframework. Jede von den beiden LLMs vorgeschlagene Iteration wird basierend auf einer benutzerdefinierten „Evaluate“-Funktion, die maschinenlesbare Metriken liefert, akzeptiert oder abgelehnt. Dieses Evaluierungssystem beginnt mit ultraschnellen Unit-Test-Prüfungen für jede vorgeschlagene Codeänderung – einfache, automatische Tests (ähnlich den von Entwicklern bereits erstellten Unit-Tests), die sicherstellen, dass das Snippet weiterhin kompiliert wird und auf wenige Mikroeingaben die richtigen Antworten liefert. Anschließend werden die verbleibenden Iterationen an anspruchsvollere Benchmarks und LLM-generierte Überprüfungen weitergeleitet. Dies läuft parallel, sodass die Suche schnell und sicher bleibt.
Kurz gesagt: Lassen Sie die Modelle Korrekturvorschläge machen und überprüfen Sie diese anschließend anhand vertrauenswürdiger Tests. AlphaEvolve unterstützt zudem die Mehrzieloptimierung (gleichzeitige Optimierung von Latenz und Genauigkeit) und entwickelt Programme, die mehrere Kennzahlen gleichzeitig erreichen. Widersprüchlicherweise kann das Ausbalancieren mehrerer Ziele eine einzelne Zielkennzahl verbessern, indem vielfältigere Lösungen gefördert werden.
Fazit für Unternehmen: Produktionsagenten benötigen deterministische Scorekeeper. Ob Unit-Tests, Vollsimulatoren oder Canary-Traffic-Analysen. Automatisierte Evaluatoren sind sowohl Ihr Sicherheitsnetz als auch Ihr Wachstumsmotor. Bevor Sie ein agentenbasiertes Projekt starten, fragen Sie sich: „Haben wir eine Metrik, anhand derer sich der Agent selbst bewerten kann?“
AlphaEvolve bewältigt jedes Programmierproblem im Zwei-Modell-Rhythmus. Gemini Flash erstellt zunächst schnelle Entwürfe und bietet dem System so eine breite Palette an Ideen zur Untersuchung. Anschließend untersucht Gemini Pro diese Entwürfe eingehender und liefert eine kleinere Auswahl aussichtsreicherer Kandidaten. Beide Modelle werden von einem schlanken „Prompt Builder“ gespeist, einem Hilfsskript, das die Fragen jedes Modells zusammenstellt. Es kombiniert drei Kontexte: frühere Codeversuche, die in einer Projektdatenbank gespeichert sind, vom Entwicklungsteam verfasste Richtlinien und Regeln sowie relevantes externes Material wie Forschungsarbeiten oder Entwicklernotizen. Mit diesem umfassenderen Hintergrund kann Gemini Flash weitreichende Entscheidungen treffen, während Gemini Pro sich auf die Qualität konzentriert.
Im Gegensatz zu vielen Agent-Demos, die jeweils nur eine Funktion optimieren, bearbeitet AlphaEvolve ganze Repositories. Jede Änderung wird als Standard-Diff-Block dargestellt – dasselbe Patch-Format, das Entwickler auf GitHub übertragen – und kann so Dutzende von Dateien bearbeiten, ohne den Überblick zu verlieren. Anschließend entscheiden automatisierte Tests, ob der Patch funktioniert. Durch wiederholte Zyklen lernt der Agent, Erfolge und Misserfolge zu speichern, schlägt bessere Patches vor und verschwendet weniger Rechenleistung in Sackgassen.
Fazit für Unternehmen: Überlassen Sie das Brainstorming günstigeren, schnelleren Modellen und greifen Sie anschließend auf ein leistungsfähigeres Modell zurück, um die besten Ideen zu verfeinern. Speichern Sie jeden Versuch in einem durchsuchbaren Verlauf, da dieser die spätere Arbeit beschleunigt und teamübergreifend wiederverwendet werden kann. Daher bieten Anbieter Entwicklern laufend neue Tools für Speicherthemen an. Produkte wie OpenMemory MCP , das einen portablen Speicher bereitstellt, und die neuen Lang- und Kurzzeitspeicher-APIs in LlamaIndex machen die Einbindung dieser Art von persistentem Kontext fast so einfach wie die Protokollierung.
Der ebenfalls heute veröffentlichte Software-Engineering-Agent Codex-1 von OpenAI unterstreicht dasselbe Muster. Er startet parallele Aufgaben in einer sicheren Sandbox, führt Unit-Tests durch und gibt Pull-Request-Entwürfe zurück – praktisch ein codespezifisches Echo der umfassenderen Such- und Auswertungsschleife von AlphaEvolve.
Die konkreten Erfolge von AlphaEvolve – Rückgewinnung von 0,7 % der Rechenzentrumskapazität, Verkürzung der Laufzeit des Gemini-Trainingskernels um 23 %, Beschleunigung von FlashAttention um 32 % und Vereinfachung des TPU-Designs – haben eines gemeinsam: Sie zielen auf Domänen mit wasserdichten Metriken ab.
Für die Rechenzentrumsplanung entwickelte AlphaEvolve eine Heuristik, die mithilfe eines Simulators der Google-Rechenzentren anhand historischer Arbeitslasten evaluiert wurde. Ziel der Kernel-Optimierung war die Minimierung der tatsächlichen Laufzeit auf TPU-Beschleunigern anhand eines Datensatzes realistischer Kernel-Eingabeformen.
Fazit für Unternehmen: Wenn Sie mit agentenbasierter KI beginnen, sollten Sie zunächst Workflows betrachten, bei denen „besser“ eine messbare Größe ist, die Ihr System berechnen kann – sei es Latenz, Kosten, Fehlerrate oder Durchsatz. Dieser Fokus ermöglicht eine automatisierte Suche und minimiert Risiken bei der Bereitstellung, da die Ausgabe des Agenten (oft menschenlesbarer Code, wie im Fall von AlphaEvolve) in bestehende Prüf- und Validierungspipelines integriert werden kann.
Diese Klarheit ermöglicht es dem Agenten, sich selbst zu verbessern und einen eindeutigen Wert zu demonstrieren.
Die Erfolge von AlphaEvolve sind zwar inspirierend, doch auch Umfang und Anforderungen des Projekts sind in Googles Papier klar dargelegt.
Die größte Einschränkung ist die Notwendigkeit eines automatisierten Evaluators; Probleme, die manuelle Experimente oder Feedback aus dem Labor erfordern, sind für diesen Ansatz derzeit nicht geeignet. Das System kann einen erheblichen Rechenaufwand erfordern – etwa 100 Rechenstunden für die Evaluierung einer neuen Lösung (AlphaEvolve-Artikel, Seite 8 ). Dies erfordert Parallelisierung und sorgfältige Kapazitätsplanung.
Bevor sie ein beträchtliches Budget für komplexe Agentensysteme bereitstellen, müssen technische Leiter wichtige Fragen stellen:
- Ist das Problem maschinell bewertbar? Gibt es eine klare, automatisierbare Metrik, anhand derer der Agent seine eigene Leistung bewerten kann?
- Rechenkapazität? Können wir uns den potenziell rechenintensiven internen Kreislauf aus Generierung, Auswertung und Verfeinerung leisten, insbesondere während der Entwicklungs- und Trainingsphase?
- Codebasis und Speicherbereitschaft? Ist Ihre Codebasis für iterative, möglicherweise diff-basierte Modifikationen strukturiert? Und können Sie die instrumentierten Speichersysteme implementieren, die für einen Agenten unerlässlich sind, um aus seiner Evolutionsgeschichte zu lernen?
Fazit für Unternehmen: Der zunehmende Fokus auf eine robuste Identitäts- und Zugriffsverwaltung für Agenten, wie er bei Plattformen wie Frontegg, Auth0 und anderen zu beobachten ist, weist auch auf die ausgereifte Infrastruktur hin, die für die Bereitstellung von Agenten erforderlich ist, die sicher mit mehreren Unternehmenssystemen interagieren.
Die Botschaft von AlphaEvolve für Unternehmensteams ist vielfältig. Erstens ist Ihr Betriebssystem rund um Agenten heute weitaus wichtiger als die Modellintelligenz. Googles Blaupause zeigt drei Säulen, die nicht übersprungen werden dürfen:
- Deterministische Evaluatoren, die dem Agenten bei jeder Änderung eine eindeutige Punktzahl geben.
- Langfristige Orchestrierung, die schnelle „Entwurfsmodelle“ wie Gemini Flash mit langsameren, anspruchsvolleren Modellen kombinieren kann – sei es der Stack von Google oder ein Framework wie LangGraph von LangChain.
- Permanenter Speicher, sodass jede Iteration auf der letzten aufbaut, anstatt von vorne zu lernen.
Unternehmen, die bereits über Protokollierung, Testumgebungen und versionierte Code-Repositorys verfügen, sind dem Ziel näher, als sie denken. Der nächste Schritt besteht darin, diese Ressourcen in eine Self-Service-Evaluierungsschleife einzubinden, damit mehrere agentengenerierte Lösungen miteinander konkurrieren können und nur die Patches mit der höchsten Punktzahl ausgeliefert werden.
Anurag Dhingra, VP und GM für Enterprise Connectivity and Collaboration bei Cisco, erklärte diese Woche in einem Interview mit VentureBeat: „Es passiert, es ist sehr, sehr real“, sagte er über Unternehmen, die KI-Agenten in der Fertigung, im Lager und in Kundenkontaktzentren einsetzen. „Das ist keine Zukunftsmusik. Es passiert schon heute.“ Er warnte, dass die Belastung bestehender Systeme mit der zunehmenden Verbreitung dieser Agenten und ihrer „menschenähnlichen Arbeit“ enorm steigen werde: „Der Netzwerkverkehr wird explodieren“, so Dhingra. Ihr Netzwerk, Ihr Budget und Ihre Wettbewerbsfähigkeit werden diese Belastung wahrscheinlich spüren, bevor sich der Hype gelegt hat. Beginnen Sie noch in diesem Quartal mit der Erprobung eines begrenzten, messwertbasierten Anwendungsfalls – und skalieren Sie dann, was funktioniert.
Sehen Sie sich den Video-Podcast an, den ich mit dem Entwickler Sam Witteveen erstellt habe. Darin gehen wir ausführlich auf produktionsreife Agenten ein und zeigen, wie AlphaEvolve den Weg weist:
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat