Googles KI-Chef sagt, Geminis neue Fähigkeiten weisen den Weg zur künstlichen Intelligenz

Demis Hassabis, CEO von Google DeepMind , sagt, dass die Verwirklichung künstlicher allgemeiner Intelligenz (AGI) – ein schwammiger Begriff, der üblicherweise zur Beschreibung von Maschinen mit menschenähnlicher Intelligenz verwendet wird – die Verfeinerung einiger der noch jungen Fähigkeiten der Gemini- Vorzeigemodelle von Google erfordern wird.
Google hat heute auf seiner jährlichen I/O-Veranstaltung in Mountain View, Kalifornien, eine Reihe von KI-Upgrades und neuen Produkten angekündigt. Der Suchmaschinenriese präsentierte aktualisierte Versionen von Gemini Flash und Gemini Pro, den schnellsten bzw. leistungsstärksten Modellen von Google. Hassabis sagte, dass Gemini Pro bei LMArena, einem weit verbreiteten Benchmark zur Messung der Leistungsfähigkeit von KI-Modellen, andere Modelle übertrifft.
Hassabis präsentierte einige experimentelle KI-Angebote, die eine Vision für künstliche Intelligenz widerspiegeln, die weit über das Chatfenster hinausgeht. „Die Art und Weise, wie wir heute mit Chatbots arbeiten, ist meiner Meinung nach eine Übergangsphase“, sagte Hassabis im Vorfeld der heutigen Veranstaltung gegenüber WIRED.
Hassabis meint, dass Geminis aufkeimende Fähigkeiten zum logischen Denken, Handeln und zur Weltmodellierung viel leistungsfähigere und proaktivere persönliche Assistenten, wirklich nützliche humanoide Roboter und schließlich eine KI ermöglichen könnten, die so intelligent ist wie jeder Mensch.
Auf der I/O stellte Google Deep Think vor, eine fortschrittlichere Form des simulierten Denkens für das Pro-Modell. Die neuesten KI-Modelle können Probleme auf eine Weise zerlegen und darüber nachdenken, die menschlichem Denken näher kommt als die instinktive Leistung standardmäßiger Modelle für große Sprachen. Deep Think nutzt mehr Rechenzeit und mehrere noch nicht genannte Innovationen, um diesen Trick zu verbessern, sagt Tulsee Doshi, Produktleiter der Gemini-Modelle.
Google hat heute neue Produkte vorgestellt, die auf der Denk- und Handlungsfähigkeit von Gemini basieren. Dazu gehört Mariner, ein Agent für den Chrome-Browser, der auf Befehl Aufgaben wie Einkaufen erledigen kann. Mariner wird als „Recherchevorschau“ über ein neues Abonnement namens Google AI Ultra angeboten, das stolze 249,99 US-Dollar pro Monat kostet.
Google zeigte außerdem eine leistungsfähigere Version des experimentellen Google-Assistenten Astra , der die Welt durch ein Smartphone oder eine Smart Glasses sehen und hören kann.
Astra kann sich nicht nur über die Welt um ihn herum unterhalten, sondern bei Bedarf auch ein Smartphone bedienen, beispielsweise Apps nutzen oder im Internet nach nützlichen Informationen suchen. Google zeigte eine Szene, in der ein Nutzer Atra bei der Suche nach Ersatzteilen für Fahrradreparaturen helfen ließ.
Doshi fügt hinzu, dass Gemini trainiert wird, um die Bedürfnisse eines Benutzers besser zu erkennen und beispielsweise eine Websuche zu starten, wenn dies sinnvoll sein könnte. Zukünftige Assistenten müssen proaktiv sein, ohne zu nerven, sagen Doshi und Hassabis.
Astras Fähigkeiten hängen davon ab, dass Gemini die physische Welt modelliert, um zu verstehen, wie sie funktioniert. Hassabis zufolge ist dies für biologische Intelligenz von entscheidender Bedeutung. KI müsse zudem ihre Denkfähigkeit, Handlungsfähigkeit und Erfindungsgabe verbessern, sagt er. „Es fehlen Fähigkeiten.“
Lange bevor es künstliche Intelligenz gibt, wird KI die Art und Weise, wie Menschen im Internet suchen, grundlegend verändern, was tiefgreifende Auswirkungen auf das Kerngeschäft von Google haben könnte.
Das Unternehmen kündigte auf der I/O neue Maßnahmen an, um die Suche an das KI-Zeitalter anzupassen (alle heutigen Ankündigungen finden Sie im WIRED-Liveblog zur I/O ). Google wird eine KI-gestützte Suchversion namens „AI Mode“ für alle US-Bürger bereitstellen und ein KI-gestütztes Shopping-Tool vorstellen, mit dem Nutzer ein Foto hochladen können, um zu sehen, wie ein Kleidungsstück an ihnen aussehen würde. Das Unternehmen wird außerdem „AI Overviews“, einen Dienst, der Ergebnisse für Google-Nutzer zusammenfasst, in weiteren Ländern und Sprachen verfügbar machen.
Veränderte ZeitlinienEinige KI-Forscher und -Experten argumentieren, dass künstliche Intelligenz (KI) nur noch wenige Jahre entfernt sein könnte – oder sogar schon heute existiert, je nachdem, wie man den Begriff definiert. Hassabis sagt, es könne fünf bis zehn Jahre dauern, bis Maschinen alles beherrschen, was ein Mensch kann. „Im Großen und Ganzen ist das noch nicht weit“, sagt Hassabis. „Aber es wird nicht morgen oder nächstes Jahr passieren.“
Hassabis sagt, dass logisches Denken, Handlungsfähigkeit und Weltmodellierung nicht nur Assistenten wie Astra ermöglichen, sondern humanoiden Robotern auch das Gehirn verleihen sollten, das sie brauchen, um in der chaotischen realen Welt zuverlässig zu agieren.
DeepMind arbeitet derzeit mit Apptroniks zusammen, einem Hersteller humanoider Roboter. Zahlreiche andere Unternehmen, darunter große Unternehmen wie Tesla und Startups wie Agility, Figure AI und 1X, bauen ebenfalls humanoide Roboter und werben mit deren Einsatzmöglichkeiten für Fabrik- und Lagerarbeit. Die Einsatzmöglichkeiten dieser Roboter sind jedoch sehr begrenzt, da ihnen die allgemeine Intelligenz fehlt.
„Was der Robotik fehlt, ist nicht so sehr der Roboter selbst, sondern das Verständnis seines physischen Kontexts“, sagt Hassabis und fügt hinzu, dass dies insbesondere für einen Haushaltsroboter gelte, der in komplexen und unbekannten Umgebungen agieren müsse. Im März stellte Google Gemini Robotics vor , eine Version seines Modells, die in der Lage ist, einige Roboter zu steuern.
Hassabis sagt, dass auch die KI erfinderischer werden müsse, um die menschliche Intelligenz originalgetreu nachzuahmen. „Konnten [die heutigen Modelle] die allgemeine Relativitätstheorie mit dem Wissen erfinden, das Einstein im Jahr 1900 hatte? Ganz klar nicht“, sagt er.
Google erforscht derzeit Möglichkeiten, KI-Modellen mehr Erfindungsreichtum zu verleihen. Das Unternehmen stellte kürzlich AlphaEvolve vor , einen Programmieragenten, der neue Algorithmen für langjährige Probleme entwickeln kann.
Hassabis sagt, dass es möglicherweise möglich sei, diese Kreativität auf Bereiche jenseits von Mathematik und Programmierung auszuweiten, indem man KI Spiele in realistischen 3D-Welten spielen lässt.
Dies wäre eine Art Rückkehr zu den Wurzeln von DeepMind, das sich mit der Entwicklung von KI-Programmen für Video- und Brettspiele einen Namen gemacht hat. „Es wird Sie nicht überraschen, dass ich mich wieder für Spiele als Testfeld dafür interessiere“, sagt Hassabis.
Hassabis sagt, dass KI möglicherweise auf die gleiche Weise lernen könnte wie die Brettspielprogramme AlphaGo und AlphaZero Schach und Go gelernt haben, allerdings erfordert dies eine anspruchsvollere Weltmodellierung. „Man braucht ein Weltmodell statt eines Spielmodells“, sagt er. „Wir glauben, das ist entscheidend, damit KI die Welt wirklich versteht.“
wired