Nur noch Menschen: Medizinische Studie aus Oxford unterstreicht das fehlende Bindeglied beim Chatbot-Testen

Nehmen Sie an der Veranstaltung teil, der Unternehmensführer seit fast zwei Jahrzehnten vertrauen. VB Transform bringt die Menschen zusammen, die eine echte KI-Strategie für Unternehmen entwickeln. Mehr erfahren
Die Schlagzeilen machen es seit Jahren deutlich: Große Sprachmodelle (LLMs) können nicht nur die medizinische Zulassungsprüfung bestehen, sondern auch Menschen übertreffen. GPT-4 könnte die Zulassungsfragen der US-amerikanischen Medizinprüfung selbst im prähistorischen KI-Zeitalter des Jahres 2023 in 90 % der Fälle korrekt beantworten. Seitdem haben LLMs die Assistenzärzte, die diese Prüfungen ablegen, und die approbierten Ärzte übertroffen.
Machen Sie Platz, Doktor Google, und machen Sie Platz für ChatGPT, MD. Aber vielleicht möchten Sie von dem LLM, den Sie für Ihre Patienten einsetzen, mehr als nur ein Diplom. Wie ein Spitzenmedizinstudent, der den Namen jedes Knochens in seiner Hand herunterrasseln kann, aber beim ersten Anblick von echtem Blut in Ohnmacht fällt, lässt sich die medizinische Beherrschung eines LLM nicht immer direkt auf die reale Welt übertragen.
In einer Studie von Forschern der Universität Oxford wurde festgestellt, dass LLMs zwar bei direkter Präsentation von Testszenarien in 94,9 % der Fälle die relevanten Bedingungen richtig identifizieren konnten, menschliche Teilnehmer, die LLMs zur Diagnose derselben Szenarien verwendeten, die richtigen Bedingungen jedoch in weniger als 34,5 % der Fälle identifizierten.
Vielleicht noch bemerkenswerter ist, dass Patienten, die LLMs nutzten, sogar schlechter abschnitten als eine Kontrollgruppe, die lediglich angewiesen wurde, sich selbst zu diagnostizieren, und zwar „mit den Methoden, die sie normalerweise zu Hause anwenden würden“. Die Gruppe, die sich selbst überlassen war, erkannte die richtige Erkrankung mit 76 % höherer Wahrscheinlichkeit als die Gruppe, die von LLMs unterstützt wurde.
Die Oxford-Studie wirft Fragen zur Eignung von LLMs für medizinische Beratung und zu den Benchmarks auf, die wir zur Bewertung von Chatbot-Einsätzen für verschiedene Anwendungen verwenden.
Unter der Leitung von Dr. Adam Mahdi rekrutierten Forscher in Oxford 1.298 Teilnehmer, die sich als Patienten einem LLM-Studiengang vorstellten. Sie sollten herausfinden, was ihnen fehlte und welche Behandlungsstufe angemessen war – von Selbstbehandlung bis hin zum Anrufen eines Krankenwagens.
Jeder Teilnehmer erhielt ein detailliertes Szenario, das verschiedene Krankheitsbilder von Lungenentzündung bis Erkältung sowie allgemeine Lebensdaten und die Krankengeschichte darstellte. Ein Beispiel beschreibt einen 20-jährigen Ingenieurstudenten, der bei einem abendlichen Treffen mit Freunden unter lähmenden Kopfschmerzen leidet. Es enthält wichtige medizinische Details (er blickt schmerzlich nach unten) und falsche Fährten (er trinkt regelmäßig, teilt sich eine Wohnung mit sechs Freunden und hat gerade stressige Prüfungen hinter sich).
Die Studie testete drei verschiedene LLMs. Die Forscher wählten GPT-4o aufgrund seiner Popularität, Llama 3 aufgrund seiner offenen Gewichte und Command R+ aufgrund seiner Retrieval-Augmented-Generation-Fähigkeiten (RAG), die es ermöglichen, im offenen Web nach Hilfe zu suchen.
Die Teilnehmer wurden gebeten, mindestens einmal unter Verwendung der bereitgestellten Details mit dem LLM zu interagieren. Sie konnten es jedoch so oft verwenden, wie sie wollten, um zu ihrer Selbstdiagnose und den beabsichtigten Maßnahmen zu gelangen.
Hinter den Kulissen hat ein Ärzteteam einstimmig die für jedes Szenario erforderlichen „Goldstandard“-Bedingungen und die entsprechenden Maßnahmen festgelegt. Unser Ingenieurstudent leidet beispielsweise an einer Subarachnoidalblutung, die einen sofortigen Besuch in der Notaufnahme nach sich ziehen sollte.
Man könnte meinen, ein LLM, der eine medizinische Prüfung mit Bravour besteht, wäre das perfekte Werkzeug, um normalen Menschen bei der Selbstdiagnose und der Entscheidungsfindung zu helfen. Doch das hat nicht funktioniert. „Teilnehmer mit LLM identifizierten relevante Erkrankungen weniger zuverlässig als die Kontrollgruppe. Sie identifizierten höchstens in 34,5 % der Fälle mindestens eine relevante Erkrankung, verglichen mit 47,0 % in der Kontrollgruppe“, heißt es in der Studie. Sie konnten auch nicht die richtige Vorgehensweise ableiten und wählten sie nur in 44,2 % der Fälle, verglichen mit 56,3 % bei einem unabhängigen LLM.
Was ist schiefgelaufen?
Bei der Überprüfung der Transkripte stellten die Forscher fest, dass die Teilnehmer den LLMs unvollständige Informationen lieferten und diese ihre Eingaben falsch interpretierten. Beispielsweise sagte ein Nutzer, der Symptome von Gallensteinen aufweisen sollte, lediglich: „Ich habe starke Magenschmerzen, die bis zu einer Stunde anhalten. Ich muss mich übergeben, und das passiert oft mit Essen zum Mitnehmen.“ Dabei wurden weder Ort, Schweregrad noch Häufigkeit der Schmerzen angegeben. Die Befehlstaste R+ suggerierte fälschlicherweise, dass der Teilnehmer an Verdauungsstörungen litt, und der Teilnehmer vermutete dies fälschlicherweise.
Selbst wenn die LLMs die richtigen Informationen lieferten, folgten die Teilnehmer ihren Empfehlungen nicht immer. Die Studie ergab, dass 65,7 % der GPT-4o-Gespräche mindestens eine relevante Bedingung für das Szenario nahelegten, aber weniger als 34,5 % der endgültigen Antworten der Teilnehmer diese relevanten Bedingungen widerspiegelten.
Diese Studie ist nützlich, aber nicht überraschend, so Nathalie Volkheimer, Spezialistin für Benutzererfahrung am Renaissance Computing Institute (RENCI) der University of North Carolina in Chapel Hill.
„Für diejenigen unter uns, die alt genug sind, um sich an die Anfänge der Internetsuche zu erinnern, ist das ein Déjà-vu“, sagt sie. „Als Werkzeug erfordern große Sprachmodelle eine bestimmte Qualität der Eingabeaufforderungen, insbesondere wenn ein qualitativ hochwertiges Ergebnis erwartet wird.“
Sie weist darauf hin, dass jemand, der unter starken Schmerzen leidet, keine großartigen Anregungen geben würde. Obwohl die Teilnehmer eines Laborexperiments die Symptome nicht direkt erlebten, gaben sie nicht jedes Detail weiter.
„Es gibt auch einen Grund, warum Kliniker, die im direkten Patientenkontakt stehen, darauf trainiert sind, Fragen auf eine bestimmte Art und Weise und mit einer gewissen Wiederholungshäufigkeit zu stellen“, fährt Volkheimer fort. Patienten verschweigen Informationen, weil sie nicht wissen, was relevant ist, oder im schlimmsten Fall lügen sie, weil sie sich schämen oder verlegen sind.
Können Chatbots besser gestaltet werden, um diese Probleme zu lösen? „Ich würde hier nicht den Schwerpunkt auf die Maschinerie legen“, warnt Volkheimer. „Der Schwerpunkt sollte vielmehr auf der Mensch-Technik-Interaktion liegen.“ Das Auto, so ihre Analogie, wurde zwar gebaut, um Menschen von A nach B zu bringen, doch viele andere Faktoren spielen eine Rolle. „Es geht um den Fahrer, die Straßen, das Wetter und die allgemeine Sicherheit der Strecke. Es hängt nicht nur von der Maschine ab.“
Die Oxford-Studie verdeutlicht ein Problem, das nicht mit Menschen oder gar LLMs zusammenhängt, sondern mit der Art und Weise, wie wir sie manchmal messen – im luftleeren Raum.
Wenn wir sagen, dass ein LLM die Prüfung zum Arzt, zur Immobilienmaklerin oder zur Anwaltsprüfung bestehen kann, untersuchen wir damit sein Wissen mithilfe von Tools, die für die menschliche Beurteilung entwickelt wurden. Diese Messungen sagen jedoch wenig darüber aus, wie erfolgreich diese Chatbots mit Menschen interagieren.
„Die Anweisungen waren lehrbuchmäßig (wie von der Quelle und der medizinischen Gemeinschaft bestätigt), aber das Leben und die Menschen sind nicht lehrbuchmäßig“, erklärt Dr. Volkheimer.
Stellen Sie sich ein Unternehmen vor, das einen Support-Chatbot einführt, der auf seiner internen Wissensdatenbank trainiert ist. Eine logische Möglichkeit, diesen Bot zu testen, wäre, ihn einfach denselben Test absolvieren zu lassen, den das Unternehmen für Kundensupport-Auszubildende verwendet: Er muss vorgefertigte Kundensupportfragen beantworten und Multiple-Choice-Antworten auswählen. Eine Genauigkeit von 95 % wäre vielversprechend.
Dann kommt die Einführung: Echte Kunden verwenden vage Formulierungen, äußern ihre Frustration oder beschreiben Probleme auf unerwartete Weise. Der LLM, der nur anhand klarer Fragen bewertet wurde, ist verwirrt und liefert falsche oder nicht hilfreiche Antworten. Er wurde weder darin geschult noch darauf getestet, Situationen zu deeskalieren oder effektiv nach Klärung zu suchen. Verärgerte Kritiken häufen sich. Der Start ist ein Desaster, obwohl der LLM Tests problemlos bestand, die für seine menschlichen Kollegen robust erschienen.
Diese Studie dient KI-Ingenieuren und Orchestrierungsspezialisten als wichtige Erinnerung: Wenn ein LLM für die Interaktion mit Menschen konzipiert ist, kann das ausschließliche Vertrauen auf nicht-interaktive Benchmarks ein gefährliches, falsches Sicherheitsgefühl hinsichtlich seiner realen Fähigkeiten erzeugen. Wenn Sie ein LLM für die Interaktion mit Menschen entwickeln, müssen Sie es mit Menschen testen – nicht für Menschen. Aber gibt es einen besseren Weg?
Die Oxford-Forscher rekrutierten für ihre Studie fast 1.300 Personen, doch die meisten Unternehmen verfügen nicht über einen Pool an Testpersonen, die darauf warten, mit einem neuen LLM-Agenten zu experimentieren. Warum also nicht einfach menschliche Tester durch KI-Tester ersetzen?
Mahdi und sein Team versuchten dies auch mit simulierten Teilnehmern. „Sie sind Patient“, forderten sie einen LLM auf, der von demjenigen, der die Beratung durchführen sollte, getrennt war. „Sie müssen Ihre Symptome anhand der gegebenen Fallvignette und mithilfe eines KI-Modells selbst einschätzen. Vereinfachen Sie die im gegebenen Absatz verwendete Terminologie auf eine allgemeinverständliche Sprache und halten Sie Ihre Fragen oder Aussagen angemessen kurz.“ Der LLM wurde außerdem angewiesen, kein medizinisches Wissen anzuwenden oder neue Symptome zu generieren.
Diese simulierten Teilnehmer chatteten dann mit denselben LLMs, die die menschlichen Teilnehmer nutzten. Sie schnitten jedoch deutlich besser ab. Im Durchschnitt trafen simulierte Teilnehmer, die dieselben LLM-Tools nutzten, die relevanten Bedingungen in 60,7 % der Fälle, verglichen mit weniger als 34,5 % bei Menschen.
In diesem Fall zeigt sich, dass LLMs besser mit anderen LLMs zusammenarbeiten als Menschen, was sie zu einem schlechten Indikator für die Leistung im wirklichen Leben macht.
Angesichts der Ergebnisse, die LLMs selbst erreichen könnten, wäre es verlockend, den Teilnehmern die Schuld zu geben. Schließlich erhielten sie in den Gesprächen mit den LLMs oft die richtigen Diagnosen, konnten diese aber dennoch nicht richtig erraten. Doch das wäre für jedes Unternehmen eine waghalsige Schlussfolgerung, warnt Volkheimer.
„Wenn Ihre Kunden nicht das tun, was Sie von ihnen erwarten, sollten Sie ihnen auf keinen Fall die Schuld geben“, sagt Volkheimer. „Als Erstes sollten Sie nach dem Warum fragen. Und zwar nicht spontan, sondern mit einer tiefgründigen, spezifischen, anthropologischen und psychologischen Frage. Das ist Ihr Ausgangspunkt.“
Man müsse seine Zielgruppe, deren Ziele und das Kundenerlebnis verstehen, bevor man einen Chatbot einsetze, empfiehlt Volkheimer. All diese Informationen fließen in die umfassende, spezialisierte Dokumentation ein, die den Nutzen eines LLM letztlich ausmacht. Ohne sorgfältig zusammengestellte Schulungsmaterialien „wird man nur eine allgemeine Antwort erhalten, die jeder hasst – und genau deshalb hassen die Leute Chatbots“, sagt sie. Wenn das passiert, „liegt es nicht daran, dass Chatbots schlecht sind oder technisch nicht stimmen. Es liegt daran, dass die Inhalte, die sie beinhalten, schlecht sind.“
„Die Menschen, die Technologie entwickeln, die dafür nötigen Informationen entwickeln, die Prozesse und Systeme, sind eben Menschen“, sagt Volkheimer. „Sie haben auch ihren Hintergrund, ihre Annahmen, ihre Schwächen und blinden Flecken, aber auch ihre Stärken. Und all diese Dinge können in jede technologische Lösung einfließen.“
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily genau das Richtige für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI tun – von regulatorischen Veränderungen bis hin zu praktischen Implementierungen. So können Sie Ihre Erkenntnisse teilen und so den ROI maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat