Die neuen CoAct-1-Agenten von Salesforce können nicht nur zeigen und klicken – sie schreiben Code, um Aufgaben schneller und mit höherer Erfolgsquote zu erledigen

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Forscher bei Salesforce und der University of Southern California haben eine neue Technik entwickelt, die es Computernutzern ermöglicht, Code auszuführen, während sie durch grafische Benutzeroberflächen (GUIs) navigieren , d. h. Skripte zu schreiben und gleichzeitig einen Cursor zu bewegen und/oder auf Schaltflächen einer Anwendung zu klicken. So werden die Vorteile beider Ansätze kombiniert, um Arbeitsabläufe zu beschleunigen und Fehler zu reduzieren.
Dieser hybride Ansatz ermöglicht es einem Agenten, auf umständliche und ineffiziente Mausklicks zu verzichten und stattdessen Aufgaben zu erledigen, die sich besser durch Codierung erledigen lassen.
Das System mit der Bezeichnung CoAct-1 setzt neue Maßstäbe bei den wichtigsten Agenten-Benchmarks, übertrifft andere Methoden und erfordert gleichzeitig deutlich weniger Schritte, um komplexe Aufgaben auf einem Computer auszuführen.
Dieses Upgrade kann den Weg für eine robustere und skalierbarere Agentenautomatisierung mit erheblichem Potenzial für reale Anwendungen ebnen.
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
Computernutzungsagenten verlassen sich in der Regel auf Vision-Language- und Vision-Language-Action- Modelle (VLMs oder VLAs), um einen Bildschirm wahrzunehmen und Maßnahmen zu ergreifen, indem sie die Verwendung von Maus und Tastatur durch eine Person nachahmen.
Obwohl diese GUI-basierten Agenten eine Vielzahl von Aufgaben ausführen können, geraten sie bei langen, komplexen Arbeitsabläufen häufig ins Stocken, insbesondere bei Anwendungen mit dichten Menüs und Optionen , wie etwa Office-Produktivitätspaketen.
Beispielsweise kann eine Aufgabe, bei der eine bestimmte Tabelle in einer Kalkulationstabelle gesucht, gefiltert und als neue Datei gespeichert werden muss, eine lange und präzise Abfolge von GUI-Manipulationen erfordern.
Hier schleicht sich die Brüchigkeit ein. „In diesen Szenarien kämpfen bestehende Agenten häufig mit visuellen Mehrdeutigkeiten (z. B. der Unterscheidung zwischen optisch ähnlichen Symbolen oder Menüelementen) und der Wahrscheinlichkeit, langfristig einen einzelnen Fehler zu machen“, schreiben die Forscher in ihrem Artikel . „Ein einziger falscher Klick oder ein missverstandenes UI-Element kann die gesamte Aufgabe gefährden.“
Um diese Herausforderungen zu bewältigen, haben sich viele Forscher auf die Erweiterung von GUI-Agenten mit Planern auf hoher Ebene konzentriert.
Diese Systeme verwenden leistungsstarke Argumentationsmodelle wie o3 von OpenAI, um das übergeordnete Ziel eines Benutzers in eine Abfolge kleinerer, überschaubarerer Unteraufgaben zu zerlegen.
Dieser strukturierte Ansatz verbessert zwar die Leistung, löst jedoch nicht das Problem der Menünavigation und des Klickens auf Schaltflächen, selbst bei Vorgängen, die mit wenigen Codezeilen direkter und zuverlässiger ausgeführt werden könnten.
Um diese Einschränkungen zu überwinden, entwickelten die Forscher CoAct-1 (Computer-using Agent with Coding as Actions), ein System, das „die intuitiven, menschenähnlichen Stärken der GUI-Manipulation mit der Präzision, Zuverlässigkeit und Effizienz der direkten Systeminteraktion durch Code kombinieren“ soll.
Das System ist als Team aus drei spezialisierten Agenten strukturiert, die zusammenarbeiten: ein Orchestrator, ein Programmierer und ein GUI-Operator.

Der Orchestrator fungiert als zentraler Planer oder Projektmanager. Er analysiert das Gesamtziel des Benutzers, zerlegt es in Unteraufgaben und weist jede Unteraufgabe dem jeweils am besten geeigneten Agenten zu. Er kann Backend-Operationen wie Dateiverwaltung oder Datenverarbeitung an den Programmierer delegieren, der Python- oder Bash-Skripte schreibt und ausführt.
Für Frontend -Aufgaben, die das Klicken auf Schaltflächen oder die Navigation durch visuelle Schnittstellen erfordern, greift es auf den GUI Operator zurück, einen VLM-basierten Agenten.
„Diese dynamische Delegation ermöglicht es CoAct-1, ineffiziente GUI-Sequenzen strategisch zu umgehen und stattdessen bei Bedarf eine robuste, einmalige Codeausführung zu verwenden, während gleichzeitig die visuelle Interaktion für Aufgaben genutzt wird, bei denen sie unverzichtbar ist“, heißt es in dem Dokument.
Der Workflow ist iterativ. Nachdem der Programmierer oder GUI-Bediener eine Teilaufgabe abgeschlossen hat, sendet er eine Zusammenfassung und einen Screenshot des aktuellen Systemzustands an den Orchestrator zurück, der dann über den nächsten Schritt entscheidet oder die Aufgabe abschließt.
Der Programmieragent verwendet ein LLM, um seinen Code zu generieren, und sendet Befehle an einen Codeinterpreter, um seinen Code über mehrere Runden hinweg zu testen und zu verfeinern.
Ebenso verwendet der GUI-Operator einen Aktionsinterpreter, der seine Befehle (z. B. Mausklicks, Eingaben) ausführt und den resultierenden Screenshot zurückgibt, sodass er das Ergebnis seiner Aktionen sehen kann. Der Orchestrator trifft die endgültige Entscheidung, ob die Aufgabe fortgesetzt oder beendet werden soll.

Die Forscher testeten CoAct-1 auf OSWorld , einem umfassenden Benchmark, der 369 reale Aufgaben in Browsern, IDEs und Office-Anwendungen umfasst.
Die Ergebnisse zeigen , dass CoAct-1 einen neuen Stand der Technik darstellt und eine Erfolgsrate von 60,76 % erreicht.
Die Leistungssteigerungen waren in Kategorien am deutlichsten, in denen die programmgesteuerte Steuerung einen klaren Vorteil bietet, wie etwa bei Aufgaben auf Betriebssystemebene und Workflows mit mehreren Anwendungen.
Stellen Sie sich beispielsweise eine Aufgabe auf Betriebssystemebene vor, bei der Sie alle Bilddateien in einer komplexen Ordnerstruktur suchen, ihre Größe ändern und dann das gesamte Verzeichnis in ein einziges Archiv komprimieren müssen.
Ein rein GUI-basierter Agent müsste eine lange, fehleranfällige Abfolge von Klicks und Ziehen ausführen , Ordner öffnen, Dateien auswählen und durch Menüs navigieren, wobei bei jedem Schritt eine hohe Fehlerwahrscheinlichkeit besteht.
CoAct-1 hingegen kann diesen gesamten Arbeitsablauf an seinen Programmieragenten delegieren, der die Aufgabe mit einem einzigen, robusten Skript erledigen kann.

Das System weist nicht nur eine höhere Erfolgsquote auf, sondern ist auch deutlich effizienter. CoAct-1 löst Aufgaben im Durchschnitt in nur 10,15 Schritten, ein starker Kontrast zu den 15,22 Schritten, die führende reine GUI-Agenten wie GTA-1 benötigen.
Während andere Agenten wie CUA 4o von OpenAI im Durchschnitt weniger Schritte machten, war ihre Gesamterfolgsrate viel niedriger, was darauf hindeutet, dass die Effizienz von CoAct-1 mit einer höheren Effektivität einhergeht.
Die Forscher stellten einen klaren Trend fest: Aufgaben, die mehr Aktionen erfordern, scheitern eher. Die Reduzierung der Anzahl der Schritte beschleunigt nicht nur die Aufgabenerledigung, sondern minimiert vor allem das Fehlerpotenzial.
Daher kann das Finden von Möglichkeiten, mehrere GUI-Schritte in eine einzige programmgesteuerte Aufgabe zu komprimieren, den Prozess sowohl effizienter als auch weniger fehleranfällig machen.
Die Forscher kommen zu dem Schluss: „Diese Effizienz unterstreicht das Potenzial unseres Ansatzes, einen robusteren und skalierbareren Weg zur allgemeinen Computerautomatisierung zu ebnen.“

Das Potenzial dieser Technologie geht über die allgemeine Produktivität hinaus. Für Unternehmensleiter liegt der Schlüssel in der Automatisierung komplexer, werkzeugübergreifender Prozesse, bei denen der vollständige API-Zugriff ein Luxus, aber keine Garantie ist.
Ran Xu, Co-Autor des Artikels und Leiter der Abteilung für angewandte KI-Forschung bei Salesforce, nennt den Kundensupport als Paradebeispiel.
„Ein Service-Support-Mitarbeiter nutzt viele verschiedene Tools – allgemeine Tools wie Salesforce, branchenspezifische Tools wie EPIC für das Gesundheitswesen und viele kundenspezifische Tools –, um eine Kundenanfrage zu untersuchen und eine Antwort zu formulieren“, sagte Xu gegenüber VentureBeat. „Einige der Tools haben API-Zugriff, andere nicht. Dies ist ein perfekter Anwendungsfall, der potenziell von unserer Technologie profitieren könnte: ein Compute-Use-Agent, der alles nutzt, was der Computer bietet – sei es eine API, Code oder einfach nur den Bildschirm.“
Xu sieht auch wertvolle Anwendungen im Vertrieb, beispielsweise bei der Akquise im großen Maßstab und der Automatisierung der Buchhaltung, sowie im Marketing für Aufgaben wie Kundensegmentierung und Generierung von Kampagnenressourcen.
Während die Ergebnisse des OSWorld-Benchmarks stark sind, herrscht in Unternehmensumgebungen weitaus mehr Chaos, da sie mit veralteter Software und unvorhersehbaren Benutzeroberflächen gefüllt sind.
Dies wirft kritische Fragen hinsichtlich Robustheit, Sicherheit und der Notwendigkeit menschlicher Aufsicht auf.
Eine zentrale Herausforderung besteht darin, sicherzustellen, dass der Orchestrator-Agent bei einer unbekannten Anwendung die richtige Wahl trifft. Laut Xu besteht der Weg, Agenten wie CoAct-1 für kundenspezifische Unternehmenssoftware robust zu machen, darin, sie mit Feedback in realistischen, simulierten Umgebungen zu trainieren.
Das Ziel besteht darin, ein System zu schaffen, in dem „der Agent beobachten kann, wie menschliche Agenten arbeiten, in einer Sandbox geschult wird und nach der Inbetriebnahme weiterhin Aufgaben unter der Anleitung und Bewachung eines menschlichen Agenten löst.“
Die Fähigkeit des Programmieragenten, seinen eigenen Code auszuführen, wirft auch offensichtliche Sicherheitsbedenken auf. Was hindert den Agenten daran, schädlichen Code basierend auf einer mehrdeutigen Benutzeranforderung auszuführen?
Xu bestätigt, dass eine robuste Eindämmung unerlässlich ist. „Zugriffskontrolle und Sandboxing sind der Schlüssel“, sagte er und betonte, dass ein Mensch „die Auswirkungen verstehen und der KI aus Sicherheitsgründen Zugriff gewähren“ müsse.
Sandboxing und Leitplanken sind für die Validierung des Agentenverhaltens vor der Bereitstellung auf kritischen Systemen von entscheidender Bedeutung .
Letztendlich wird die Beseitigung von Mehrdeutigkeiten auf absehbare Zeit wahrscheinlich die Einbindung des Menschen erfordern. Auf die Frage nach dem Umgang mit vagen Benutzeranfragen – ein Anliegen, das auch im Dokument angesprochen wird – schlug Xu einen schrittweisen Ansatz vor. „Ich denke, der Mensch ist der erste Schritt“, bemerkte er.
Während einige Aufgaben irgendwann vollständig autonom ablaufen könnten, bleibt bei wichtigen Operationen die menschliche Validierung entscheidend. „Einige unternehmenskritische Aufgaben benötigen möglicherweise immer die menschliche Zustimmung.“
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat