rBio der Chan Zuckerberg Initiative nutzt virtuelle Zellen, um KI zu trainieren und umgeht so Laborarbeit

Möchten Sie intelligentere Einblicke in Ihren Posteingang erhalten? Melden Sie sich für unseren wöchentlichen Newsletter an, um nur das zu erhalten, was für Führungskräfte in den Bereichen KI, Daten und Sicherheit in Unternehmen wichtig ist. Jetzt abonnieren
Die Chan Zuckerberg Initiative gab am Donnerstag die Einführung von rBio bekannt, dem ersten künstlichen Intelligenzmodell, das mithilfe virtueller Simulationen darauf trainiert wird, zelluläre Biologie zu analysieren, ohne dass dafür teure Laborexperimente erforderlich sind – ein Durchbruch, der die biomedizinische Forschung und die Arzneimittelentdeckung dramatisch beschleunigen könnte.
Das in einer auf bioRxiv veröffentlichten Forschungsarbeit beschriebene Schlussfolgerungsmodell demonstriert einen neuartigen Ansatz namens „ Soft Verification “, der Vorhersagen aus virtuellen Zellmodellen als Trainingssignale nutzt, anstatt sich ausschließlich auf experimentelle Daten zu verlassen. Dieser Paradigmenwechsel könnte Forschern helfen, biologische Hypothesen rechnerisch zu testen, bevor sie Zeit und Ressourcen für kostspielige Laborarbeit aufwenden müssen.
„Die Idee ist, diese extrem leistungsfähigen Zellmodelle zu haben und sie zu nutzen, um Ergebnisse zu simulieren, anstatt sie experimentell im Labor zu testen“, sagte Ana-Maria Istrate, leitende Wissenschaftlerin am CZI und Hauptautorin der Studie, in einem Interview. „Bisher galt das Paradigma, dass 90 Prozent der Arbeit in der Biologie experimentell im Labor getestet werden, während 10 Prozent rechnerisch erfolgen. Mit virtuellen Zellmodellen wollen wir dieses Paradigma umkehren.“
Die Ankündigung stellt einen bedeutenden Meilenstein für das ehrgeizige Ziel von CZI dar, „bis zum Ende dieses Jahrhunderts alle Krankheiten zu heilen, zu verhindern und zu behandeln“. Unter der Leitung der Kinderärztin Priscilla Chan und des Meta-CEO Mark Zuckerberg konzentriert die philanthropische Initiative im Wert von 6 Milliarden US-Dollar ihre Ressourcen zunehmend auf die Schnittstelle zwischen künstlicher Intelligenz und Biologie .
Die Skalierung von KI stößt an ihre Grenzen
Leistungsbeschränkungen, steigende Token-Kosten und Verzögerungen bei der Inferenz verändern die Unternehmens-KI. Nehmen Sie an unserem exklusiven Salon teil und erfahren Sie, wie Top-Teams:
- Energie in einen strategischen Vorteil verwandeln
- Effiziente Inferenz für echte Durchsatzsteigerungen
- Erzielen Sie mit nachhaltigen KI-Systemen einen wettbewerbsfähigen ROI
Sichern Sie sich Ihren Platz, um die Nase vorn zu haben : https://bit.ly/4mwGngO
rBio befasst sich mit einer grundlegenden Herausforderung bei der Anwendung von KI in der biologischen Forschung. Während große Sprachmodelle wie ChatGPT sich durch die Textverarbeitung auszeichnen, arbeiten biologische Basismodelle typischerweise mit komplexen molekularen Daten, die sich nicht einfach in natürlicher Sprache abfragen lassen. Wissenschaftler haben Schwierigkeiten, diese Lücke zwischen leistungsstarken biologischen Modellen und benutzerfreundlichen Schnittstellen zu schließen.
„Grundlegende Modelle der Biologie – Modelle wie GREmLN und TranscriptFormer – basieren auf biologischen Datenmodalitäten, was bedeutet, dass man nicht in natürlicher Sprache mit ihnen interagieren kann“, erklärte Istrate. „Man muss komplizierte Wege finden, sie anzuregen.“
Das neue Modell löst dieses Problem, indem es das Wissen aus dem TranscriptFormer des CZI – einem virtuellen Zellmodell, das an 112 Millionen Zellen aus 12 Arten mit einer Evolutionsgeschichte von 1,5 Milliarden Jahren trainiert wurde – in ein Konversations-KI-System destilliert, das Forscher in einfachem Englisch abfragen können.
Die Kerninnovation liegt in der Trainingsmethodik von rBio . Herkömmliche Denkmodelle lernen aus Fragen mit eindeutigen Antworten, wie etwa mathematischen Gleichungen. Biologische Fragen sind jedoch mit Unsicherheiten und Wahrscheinlichkeitsergebnissen verbunden, die sich nicht eindeutig in binäre Kategorien einordnen lassen.
Das Forschungsteam des CZI unter der Leitung von Theofanis Karaletsos, Senior Director of AI, und Istrate meisterte diese Herausforderung durch den Einsatz von bestärkendem Lernen mit proportionalen Belohnungen. Anstelle einer einfachen Ja-Nein-Verifizierung erhält das Modell Belohnungen proportional zur Wahrscheinlichkeit, mit der seine biologischen Vorhersagen mit der Realität übereinstimmen, wie durch virtuelle Zellsimulationen ermittelt.
„Wir haben neue Methoden für das Training von LLMs angewendet“, heißt es in der Forschungsarbeit . „Das Team nutzte ein handelsübliches Sprachmodell als Grundlage und trainierte rBio mit Reinforcement Learning, einer gängigen Technik, bei der das Modell für richtige Antworten belohnt wird. Anstatt jedoch eine Reihe von Ja/Nein-Fragen zu stellen, passten die Forscher die Belohnungen proportional zur Wahrscheinlichkeit an, dass die Antworten des Modells richtig waren.“
Dieser Ansatz ermöglicht es Wissenschaftlern, komplexe Fragen zu stellen, wie etwa „Würde die Unterdrückung der Wirkung von Gen A zu einer Steigerung der Aktivität von Gen B führen?“ und wissenschaftlich fundierte Antworten zu zellulären Veränderungen zu erhalten, einschließlich des Wechsels vom gesunden zum kranken Zustand.
Beim Test mit dem PerturbQA-Benchmark – einem Standarddatensatz zur Bewertung der Vorhersage von Genstörungen – zeigte rBio eine konkurrenzfähige Leistung mit Modellen, die mit experimentellen Daten trainiert wurden. Das System übertraf grundlegende große Sprachmodelle und erreichte in wichtigen Kennzahlen die Leistung spezialisierter biologischer Modelle.
Besonders bemerkenswert ist, dass rBio starke Fähigkeiten zum „ Transferlernen “ zeigte und erfolgreich das Wissen über Gen-Koexpressionsmuster anwandte, das es von TranscriptFormer gelernt hatte, um genaue Vorhersagen über die Auswirkungen von Genstörungen zu treffen – eine völlig andere biologische Aufgabe.
„Wir zeigen, dass Modelle, die mit Soft-Verifiern trainiert wurden, im PerturbQA-Datensatz lernen, auf außerhalb der Verteilung liegende Zelllinien zu verallgemeinern, wodurch möglicherweise die Notwendigkeit umgangen wird, mit zelllinienspezifischen experimentellen Daten zu trainieren“, schrieben die Forscher.
Durch die Erweiterung um Techniken zur Denkkettenförderung, die schrittweises Denken fördern, erreichte rBio eine Leistung auf dem neuesten Stand der Technik und übertraf das bisher führende Modell SUMMER .
Die Ankündigung von rBio erfolgte vor dem Hintergrund erheblicher organisatorischer Veränderungen bei CZI. Die Organisation konzentrierte sich von einer breit angelegten philanthropischen Mission, die soziale Gerechtigkeit und Bildungsreformen umfasste, auf eine gezieltere Ausrichtung auf wissenschaftliche Forschung. Dieser Wandel stieß bei einigen ehemaligen Mitarbeitern und Stipendiaten auf Kritik, da die Organisation progressive Anliegen aufgegeben hatte.
Für Istrate, die seit sechs Jahren am CZI arbeitet, stellt der Fokus auf biologische KI jedoch eine natürliche Weiterentwicklung langjähriger Prioritäten dar. „Meine Erfahrung und meine Arbeit haben sich nicht wesentlich verändert. Ich bin seit meiner Zeit am CZI Teil der Wissenschaftsinitiative“, sagte sie.
Die Konzentration auf virtuelle Zellmodelle basiert auf fast einem Jahrzehnt Grundlagenarbeit. CZI hat massiv in den Aufbau von Zellatlanten investiert – umfassende Datenbanken, die zeigen, welche Gene in verschiedenen Zelltypen verschiedener Arten aktiv sind – und in die Entwicklung der rechnergestützten Infrastruktur, die für das Training großer biologischer Modelle erforderlich ist.
„Ich bin wirklich begeistert von der Arbeit, die seit Jahren bei CZI geleistet wird, denn wir haben auf diesen Moment hingearbeitet“, bemerkte Istrate und verwies auf die früheren Investitionen der Organisation in Datenplattformen und Einzelzell-Transkriptomik.
Ein entscheidender Vorteil des CZI-Ansatzes liegt in der jahrelangen sorgfältigen Datenpflege. Die Organisation betreibt CZ CELLxGENE , eines der größten Repositorien für biologische Einzelzelldaten, in dem die Informationen strengen Qualitätskontrollprozessen unterzogen werden.
„Wir haben einige der wichtigsten ersten Datenatlanten für die Transkriptomik erstellt, und diese wurden unter Berücksichtigung der Diversität erstellt, um Verzerrungen hinsichtlich Zelltypen, Abstammung, Gewebe und Spender zu minimieren“, erklärte Istrate.
Diese Aufmerksamkeit für die Datenqualität ist entscheidend, wenn KI-Modelle trainiert werden, die medizinische Entscheidungen beeinflussen könnten. Im Gegensatz zu einigen kommerziellen KI-Projekten, die auf öffentlich zugänglichen, aber potenziell verzerrten Datensätzen basieren, profitieren die Modelle von CZI von sorgfältig kuratierten biologischen Daten, die unterschiedliche Populationen und Zelltypen repräsentieren.
CZI setzt auf Open-Source-Entwicklung und unterscheidet sich damit von kommerziellen Wettbewerbern wie Google DeepMind und Pharmaunternehmen, die proprietäre KI-Tools entwickeln. Alle CZI-Modelle, einschließlich rBio, sind kostenlos über die Virtual Cell Platform der Organisation verfügbar, inklusive Tutorials, die auf kostenlosen Google Colab-Notebooks ausgeführt werden können.
„Ich halte den Open-Source-Anteil für sehr wichtig, denn das ist ein zentraler Wert, den wir seit der Gründung von CZI verfolgen“, sagte Istrate. „Eines der Hauptziele unserer Arbeit ist die Beschleunigung der Wissenschaft. Deshalb wollen wir alles, was wir tun, ausschließlich zu diesem Zweck Open Source machen.“
Diese Strategie zielt darauf ab, den Zugang zu hochentwickelten biologischen KI-Tools zu demokratisieren. Dies könnte kleineren Forschungseinrichtungen und Start-ups zugutekommen, denen die Ressourcen für die eigenständige Entwicklung solcher Modelle fehlen. Der Ansatz spiegelt die philanthropische Mission des CZI wider und schafft Netzwerkeffekte, die den wissenschaftlichen Fortschritt beschleunigen könnten.
Die potenziellen Anwendungsmöglichkeiten gehen weit über die akademische Forschung hinaus. Indem rBio es Wissenschaftlern ermöglicht, Hypothesen über Geninteraktionen und Zellreaktionen schnell zu testen, könnte es die frühen Phasen der Arzneimittelforschung deutlich beschleunigen – ein Prozess, der normalerweise Jahrzehnte dauert und Milliarden von Dollar kostet.
Die Fähigkeit des Modells, vorherzusagen, wie sich Genstörungen auf das Zellverhalten auswirken, könnte sich als besonders wertvoll für das Verständnis neurodegenerativer Erkrankungen wie Alzheimer erweisen, bei denen Forscher herausfinden müssen, wie bestimmte genetische Veränderungen zum Fortschreiten der Krankheit beitragen.
„Die Antworten auf diese Fragen können unser Verständnis der Geninteraktionen prägen, die zu neurodegenerativen Erkrankungen wie Alzheimer beitragen“, heißt es in der Forschungsarbeit. „Dieses Wissen könnte zu früheren Interventionen führen und diese Krankheiten vielleicht eines Tages ganz stoppen.“
rBio ist der erste Schritt in der umfassenderen Vision des CZI, „universelle virtuelle Zellmodelle“ zu entwickeln, die Wissen aus mehreren biologischen Bereichen integrieren. Derzeit müssen Forscher mit separaten Modellen für verschiedene Arten biologischer Daten – Transkriptomik, Proteomik, Bildgebung – arbeiten, ohne dass es einfache Möglichkeiten gibt, Erkenntnisse zu kombinieren.
„Eine unserer großen Herausforderungen besteht darin, diese virtuellen Zellmodelle zu entwickeln und Zellen zu verstehen. Wie ich bereits erwähnt habe, besteht die Herausforderung darin, in den nächsten Jahren das Wissen aus all diesen hochleistungsfähigen biologischen Modellen zu integrieren“, sagte Istrate. „Die größte Herausforderung besteht darin, all dieses Wissen an einem Ort zu vereinen.“
Die Forscher demonstrierten diese Integrationsfähigkeit, indem sie rBio-Modelle trainierten, die mehrere Verifizierungsquellen kombinieren – TranscriptFormer für Genexpressionsdaten, spezialisierte neuronale Netzwerke zur Störungsvorhersage und Wissensdatenbanken wie Gene Ontology . Diese kombinierten Modelle waren Single-Source-Ansätzen deutlich überlegen.
Trotz seiner vielversprechenden Leistung steht rBio vor mehreren technischen Herausforderungen. Die aktuelle Expertise des Modells konzentriert sich hauptsächlich auf die Vorhersage von Genstörungen, obwohl die Forscher darauf hinweisen, dass theoretisch jeder von TranscriptFormer abgedeckte biologische Bereich einbezogen werden könnte.
Das Team arbeitet weiterhin an der Verbesserung der Benutzererfahrung und der Implementierung geeigneter Schutzmaßnahmen, um zu verhindern, dass das Modell Antworten liefert, die außerhalb seines Fachgebiets liegen – eine häufige Herausforderung bei der Bereitstellung großer Sprachmodelle für spezialisierte Domänen.
„Während rBio für die Forschung bereit ist, arbeitet das Entwicklungsteam des Modells weiterhin an der Verbesserung der Benutzererfahrung, da die flexible Problemlösung, die Schlussfolgerungsmodelle dialogfähig macht, auch eine Reihe von Herausforderungen mit sich bringt“, heißt es in der Forschungsarbeit.
Die Entwicklung von rBio erfolgt vor dem Hintergrund des zunehmenden Wettbewerbs in der KI-gestützten Arzneimittelforschung. Große Pharmaunternehmen und Technologiefirmen investieren Milliarden in biologische KI-Funktionen und erkennen das Potenzial, die Art und Weise der Arzneimittelforschung und -entwicklung zu verändern.
Der Open-Source-Ansatz von CZI könnte diesen Wandel beschleunigen, indem er der breiteren Forschungsgemeinschaft hochentwickelte Tools zur Verfügung stellt. Akademische Forscher, Biotech-Startups und sogar etablierte Pharmaunternehmen können nun auf Funktionen zugreifen, die sonst erhebliche interne KI-Entwicklungsanstrengungen erfordern würden.
Der Zeitpunkt ist bedeutsam, da die Trump-Regierung erhebliche Kürzungen des Budgets der National Institutes of Health vorgeschlagen hat, was die öffentliche Finanzierung der biomedizinischen Forschung gefährden könnte. Die anhaltenden Investitionen des CZI in die Infrastruktur für biologische KI könnten dazu beitragen, die Forschungsdynamik in Zeiten reduzierter staatlicher Unterstützung aufrechtzuerhalten.
Die Einführung von rBio markiert mehr als nur einen weiteren Durchbruch in der KI – sie stellt einen grundlegenden Wandel in der biologischen Forschung dar. Indem CZI zeigt, dass virtuelle Simulationen Modelle genauso effektiv trainieren können wie teure Laborexperimente, eröffnet es Forschern weltweit die Möglichkeit, ihre Arbeit ohne die traditionellen Einschränkungen durch Zeit, Geld und physische Ressourcen zu beschleunigen.
Während CZI die kostenlose Bereitstellung von rBio über seine Virtual Cell Platform vorbereitet, erweitert die Organisation ihre Fähigkeiten in der biologischen KI mit Modellen wie GREmLN zur Krebserkennung und arbeitet kontinuierlich an Bildgebungstechnologien. Der Erfolg des Soft-Verification-Ansatzes könnte die Art und Weise beeinflussen, wie andere Organisationen KI für wissenschaftliche Anwendungen trainieren. Dies könnte die Abhängigkeit von experimentellen Daten verringern und gleichzeitig die wissenschaftliche Genauigkeit wahren.
Für eine Organisation, die mit dem kühnen Ziel gegründet wurde, bis zum Ende des Jahrhunderts alle Krankheiten zu heilen, bietet rBio etwas, das Medizinforschern lange Zeit entgangen war: eine Möglichkeit, die schwierigsten Fragen der Biologie zu stellen und wissenschaftlich fundierte Antworten zu erhalten – und das in der Zeit, die man braucht, um einen Satz zu tippen. In einem Bereich, in dem Fortschritt traditionell in Jahrzehnten gemessen wird, könnte diese Geschwindigkeit den entscheidenden Unterschied zwischen Krankheiten ausmachen, die Generationen prägen – und Krankheiten, die zu einer fernen Erinnerung werden.
Wenn Sie Ihren Chef beeindrucken möchten, sind Sie bei VB Daily genau richtig. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat