Aggiungi solo gli esseri umani: uno studio medico di Oxford sottolinea l'anello mancante nei test dei chatbot

Partecipa all'evento di cui i leader aziendali si fidano da quasi vent'anni. VB Transform riunisce le persone che sviluppano una vera strategia di intelligenza artificiale aziendale. Scopri di più
I titoli lo gridano da anni: i modelli linguistici di grandi dimensioni (LLM) non solo possono superare gli esami di abilitazione medica, ma anche superare gli esseri umani. GPT-4 poteva rispondere correttamente alle domande degli esami di abilitazione medica negli Stati Uniti nel 90% dei casi, persino nell'era preistorica dell'intelligenza artificiale del 2023. Da allora, gli LLM hanno continuato a battere gli specializzandi che sostengono quegli esami e i medici abilitati .
Fai spazio, Dottor Google, fai largo a ChatGPT, MD. Ma forse ti serve più di un diploma del Master in Medicina e Chirurgia che distribuisci ai pazienti. Come uno studente di medicina brillante che sa snocciolare il nome di ogni osso della mano ma sviene alla prima vista di sangue vero, la padronanza della medicina acquisita con un Master in Medicina e Chirurgia non sempre si traduce direttamente nel mondo reale.
Uno studio condotto dai ricercatori dell'Università di Oxford ha scoperto che, mentre gli LLM riuscivano a identificare correttamente le condizioni rilevanti nel 94,9% dei casi quando venivano presentati direttamente scenari di test, i partecipanti umani che utilizzavano gli LLM per diagnosticare gli stessi scenari identificavano le condizioni corrette in meno del 34,5% dei casi.
Forse ancora più degno di nota è il fatto che i pazienti che hanno utilizzato gli LLM hanno ottenuto risultati addirittura peggiori rispetto a un gruppo di controllo a cui era stato semplicemente chiesto di autodiagnosticarsi usando "qualsiasi metodo che avrebbero normalmente utilizzato a casa". Il gruppo lasciato a se stesso aveva il 76% di probabilità in più di identificare le condizioni corrette rispetto al gruppo assistito dagli LLM.
Lo studio di Oxford solleva interrogativi sull'idoneità degli LLM per la consulenza medica e sui parametri di riferimento che utilizziamo per valutare le implementazioni dei chatbot per varie applicazioni.
Guidati dal Dott. Adam Mahdi, i ricercatori di Oxford hanno reclutato 1.298 partecipanti, che si sono presentati come pazienti a un LLM. Il compito era di capire la causa del loro disturbo e il livello di assistenza più appropriato da richiedere, spaziando dall'automedicazione alla chiamata di un'ambulanza.
Ogni partecipante ha ricevuto uno scenario dettagliato, che rappresentava condizioni che andavano dalla polmonite al raffreddore comune, insieme a dettagli generali sulla vita e sull'anamnesi medica. Ad esempio, uno scenario descrive uno studente di ingegneria ventenne che sviluppa un forte mal di testa durante una serata fuori con gli amici. Include importanti dettagli medici (è doloroso guardare in basso) e false piste (beve abitualmente, condivide un appartamento con sei amici e ha appena finito degli esami stressanti).
Lo studio ha testato tre diversi LLM. I ricercatori hanno selezionato GPT-4o per la sua popolarità, Llama 3 per i suoi pesi aperti e Command R+ per le sue capacità di generazione aumentata del recupero (RAG), che gli consentono di cercare aiuto nel web aperto.
Ai partecipanti è stato chiesto di interagire con l'LLM almeno una volta utilizzando i dettagli forniti, ma potevano utilizzarlo tutte le volte che desideravano per arrivare alla loro autodiagnosi e all'azione prevista.
Dietro le quinte, un team di medici ha deciso all'unanimità quali fossero le condizioni "gold standard" da ricercare in ogni scenario e il relativo percorso terapeutico. Il nostro studente di ingegneria, ad esempio, soffre di un'emorragia subaracnoidea, che dovrebbe richiedere un ricovero immediato al pronto soccorso.
Sebbene si possa supporre che un LLM in grado di superare un esame medico sia lo strumento perfetto per aiutare le persone comuni a autodiagnosticarsi e a capire cosa fare, non è andata così. "I partecipanti che hanno utilizzato un LLM hanno identificato le condizioni rilevanti in modo meno coerente rispetto a quelli del gruppo di controllo, identificando almeno una condizione rilevante al massimo nel 34,5% dei casi rispetto al 47,0% del gruppo di controllo", afferma lo studio. Inoltre, non sono riusciti a dedurre la corretta linea d'azione, scegliendola solo nel 44,2% dei casi, rispetto al 56,3% di un LLM che ha agito in modo indipendente.
Cosa è andato storto?
Riguardando le trascrizioni, i ricercatori hanno scoperto che i partecipanti fornivano informazioni incomplete agli LLM e che questi ultimi interpretavano male i loro suggerimenti. Ad esempio, un utente che avrebbe dovuto presentare sintomi di calcoli biliari si è limitato a dire all'LLM: "Ho forti dolori di stomaco che durano fino a un'ora, possono farmi vomitare e sembrano coincidere con un pasto da asporto", omettendo la posizione del dolore, la gravità e la frequenza. Il comando R+ suggeriva erroneamente che il partecipante stesse soffrendo di indigestione, e il partecipante ha erroneamente ipotizzato tale condizione.
Anche quando gli LLM fornivano le informazioni corrette, i partecipanti non sempre ne seguivano le raccomandazioni. Lo studio ha rilevato che il 65,7% delle conversazioni GPT-4o suggeriva almeno una condizione rilevante per lo scenario, ma in qualche modo meno del 34,5% delle risposte finali dei partecipanti rifletteva tali condizioni.
Questo studio è utile, ma non sorprendente, secondo Nathalie Volkheimer, specialista dell'esperienza utente presso il Renaissance Computing Institute (RENCI) dell'Università della Carolina del Nord a Chapel Hill.
"Per chi di noi è abbastanza grande da ricordare i primi tempi della ricerca su internet, questo è un déjà vu", afferma. "Come strumento, i modelli linguistici di grandi dimensioni richiedono che i prompt siano scritti con un certo livello di qualità, soprattutto se ci si aspetta un output di qualità."
Sottolinea che qualcuno che prova un dolore lancinante non fornirebbe grandi spunti. Sebbene i partecipanti a un esperimento di laboratorio non sperimentassero direttamente i sintomi, non ne riferivano ogni dettaglio.
"C'è anche un motivo per cui i medici che si occupano dei pazienti in prima linea sono addestrati a porre domande in un certo modo e con una certa ripetitività", prosegue Volkheimer. I pazienti omettono informazioni perché non sanno cosa sia rilevante o, nel peggiore dei casi, mentono perché si sentono in imbarazzo o si vergognano.
I chatbot possono essere progettati meglio per affrontarli? "Non metterei l'accento sulla macchina in questo caso", avverte Volkheimer. "Ritengo che l'enfasi dovrebbe essere sull'interazione uomo-tecnologia". L'auto, fa un'analogia, è stata costruita per portare le persone dal punto A al punto B, ma molti altri fattori giocano un ruolo. "Riguarda il conducente, le strade, le condizioni meteorologiche e la sicurezza generale del percorso. Non dipende solo dalla macchina".
Lo studio di Oxford evidenzia un problema, non legato agli esseri umani o agli LLM, ma al modo in cui a volte li misuriamo: nel vuoto.
Quando affermiamo che un LLM può superare un esame di abilitazione medica, un esame di abilitazione immobiliare o un esame di abilitazione all'esercizio della professione forense, stiamo sondando la profondità della sua base di conoscenze utilizzando strumenti progettati per valutare gli esseri umani. Tuttavia, questi parametri ci dicono molto poco sull'efficacia con cui questi chatbot interagiranno con gli esseri umani.
"I suggerimenti erano da manuale (come convalidato dalla fonte e dalla comunità medica), ma la vita e le persone non sono da manuale", spiega il dott. Volkheimer.
Immaginate un'azienda in procinto di implementare un chatbot di supporto addestrato sulla propria knowledge base interna. Un modo apparentemente logico per testare tale bot potrebbe essere semplicemente sottoporlo allo stesso test che l'azienda utilizza per i tirocinanti dell'assistenza clienti: rispondere a domande di supporto "cliente" preimpostate e selezionare risposte a risposta multipla. Un'accuratezza del 95% sembrerebbe certamente promettente.
Poi arriva il momento dell'implementazione: i clienti reali usano termini vaghi, esprimono frustrazione o descrivono i problemi in modi inaspettati. L'LLM, testato solo su domande chiare, si confonde e fornisce risposte errate o inutili. Non è stato addestrato o valutato per gestire le situazioni in modo efficace o per cercare chiarimenti. Le recensioni negative si accumulano. Il lancio è un disastro, nonostante l'LLM abbia superato brillantemente test che sembravano solidi per le sue controparti umane.
Questo studio rappresenta un promemoria fondamentale per gli ingegneri di intelligenza artificiale e gli specialisti dell'orchestrazione: se un LLM è progettato per interagire con gli esseri umani, affidarsi esclusivamente a benchmark non interattivi può creare un pericoloso falso senso di sicurezza sulle sue capacità nel mondo reale. Se si progetta un LLM per interagire con gli esseri umani, è necessario testarlo con gli esseri umani, non testarlo per gli esseri umani. Ma esiste un modo migliore?
I ricercatori di Oxford hanno reclutato quasi 1.300 persone per il loro studio, ma la maggior parte delle aziende non dispone di un pool di soggetti di prova in attesa di interagire con un nuovo agente LLM. Quindi, perché non sostituire semplicemente i tester umani con l'intelligenza artificiale?
Mahdi e il suo team hanno provato anche questo, con partecipanti simulati. "Sei un paziente", hanno chiesto a un LLM, diverso da quello che avrebbe fornito il consiglio. "Devi autovalutare i tuoi sintomi sulla base del caso clinico fornito e dell'assistenza di un modello di intelligenza artificiale. Semplifica la terminologia utilizzata nel paragrafo fornito in un linguaggio semplice e mantieni le tue domande o affermazioni ragionevolmente brevi". L'LLM è stato inoltre invitato a non utilizzare conoscenze mediche o generare nuovi sintomi.
Questi partecipanti simulati hanno poi chattato con gli stessi LLM utilizzati dai partecipanti umani. Ma hanno ottenuto risultati molto migliori. In media, i partecipanti simulati che utilizzavano gli stessi strumenti LLM hanno centrato le condizioni rilevanti nel 60,7% dei casi, rispetto a meno del 34,5% degli esseri umani.
In questo caso, si scopre che gli LLM interagiscono meglio con gli altri LLM rispetto agli esseri umani, il che li rende un pessimo indicatore delle prestazioni nella vita reale.
Considerando i punteggi che gli LLM potrebbero raggiungere da soli, si potrebbe essere tentati di dare la colpa ai partecipanti. Dopotutto, in molti casi hanno ricevuto le diagnosi corrette durante le conversazioni con gli LLM, ma non sono comunque riusciti a indovinarle correttamente. Ma questa sarebbe una conclusione azzardata per qualsiasi azienda, avverte Volkheimer.
"In ogni contesto di relazione con i clienti, se questi non fanno quello che vorresti, l'ultima cosa che fai è incolparli", afferma Volkheimer. "La prima cosa da fare è chiedersi il perché. E non il 'perché' a bruciapelo: ma un 'perché' approfondito, investigativo, specifico, antropologico, psicologico e analizzato. Questo è il punto di partenza."
Prima di implementare un chatbot, suggerisce Volkheimer, è necessario comprendere il proprio pubblico, i suoi obiettivi e l'esperienza del cliente. Tutti questi elementi contribuiranno alla creazione di una documentazione completa e specializzata che, in definitiva, renderà utile un LLM. Senza materiali di formazione accuratamente selezionati, "si otterrà una risposta generica che tutti odiano, ed è per questo che la gente odia i chatbot", afferma. Quando ciò accade, "non è perché i chatbot siano pessimi o perché ci sia qualcosa di tecnicamente sbagliato. È perché il materiale che li compone è scadente".
"Le persone che progettano la tecnologia, sviluppano le informazioni da inserire, i processi e i sistemi sono, beh, persone", afferma Volkheimer. "Hanno anche un background, presupposti, difetti e punti ciechi, oltre a punti di forza. E tutti questi elementi possono essere integrati in qualsiasi soluzione tecnologica".
Se vuoi fare colpo sul tuo capo, VB Daily è la soluzione che fa per te. Ti offriamo informazioni privilegiate su ciò che le aziende stanno facendo con l'IA generativa, dai cambiamenti normativi alle implementazioni pratiche, così puoi condividere spunti per massimizzare il ROI.
Leggi la nostra Informativa sulla privacy
Grazie per l'iscrizione. Scopri altre newsletter di VB qui .
Si è verificato un errore.

venturebeat