Selecione o idioma

Portuguese

Down Icon

Selecione o país

America

Down Icon

Basta adicionar humanos: estudo médico de Oxford destaca o elo perdido nos testes de chatbots

Basta adicionar humanos: estudo médico de Oxford destaca o elo perdido nos testes de chatbots

Participe do evento que conta com a confiança de líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que constroem estratégias reais de IA empresarial. Saiba mais

As manchetes vêm anunciando isso há anos: modelos de linguagem de grande porte (LLMs) não só conseguem passar em exames de licenciamento médico, como também superam humanos. O GPT-4 conseguiu responder corretamente a perguntas sobre licenciamento de exames médicos nos EUA em 90% das vezes, mesmo nos tempos pré-históricos da IA ​​em 2023. Desde então, os LLMs superaram os residentes que realizaram esses exames e os médicos licenciados .

Sai da frente, Doutor Google, abre caminho para o ChatGPT, MD. Mas você pode querer mais do que um diploma do mestrado que você oferece aos pacientes. Como um estudante de medicina excepcional que consegue recitar o nome de cada osso da mão, mas desmaia ao ver sangue de verdade, o domínio da medicina de um mestrado nem sempre se traduz diretamente no mundo real.

Um artigo de pesquisadores da Universidade de Oxford descobriu que, embora os LLMs pudessem identificar corretamente as condições relevantes 94,9% das vezes quando apresentados diretamente a cenários de teste, os participantes humanos que usaram LLMs para diagnosticar os mesmos cenários identificaram as condições corretas menos de 34,5% das vezes.

Talvez ainda mais notável, os pacientes que usaram LLMs tiveram um desempenho ainda pior do que um grupo de controle que foi simplesmente instruído a se autodiagnosticar usando "quaisquer métodos que normalmente empregariam em casa". O grupo deixado por conta própria teve 76% mais chances de identificar as condições corretas do que o grupo auxiliado por LLMs.

O estudo de Oxford levanta questões sobre a adequação dos LLMs para aconselhamento médico e os parâmetros que usamos para avaliar implantações de chatbots para várias aplicações.

Liderados pelo Dr. Adam Mahdi, pesquisadores de Oxford recrutaram 1.298 participantes para se apresentarem como pacientes de um programa de mestrado em direito. A tarefa era tentar descobrir o que os afligia e o nível de cuidado apropriado a ser buscado, desde autocuidado até chamar uma ambulância.

Cada participante recebeu um cenário detalhado, representando condições que iam de pneumonia a um resfriado comum, juntamente com detalhes gerais da vida e histórico médico. Por exemplo, um cenário descreve um estudante de engenharia de 20 anos que desenvolve uma dor de cabeça incapacitante em uma noite com amigos. O cenário inclui detalhes médicos importantes (é doloroso olhar para baixo) e pistas falsas (ele bebe bastante, divide um apartamento com seis amigos e acaba de terminar algumas provas estressantes).

O estudo testou três LLMs diferentes. Os pesquisadores selecionaram o GPT-4o por sua popularidade, o Llama 3 por seus pesos abertos e o Command R+ por suas capacidades de geração aumentada de recuperação (RAG), que permitem a busca de ajuda na web aberta.

Os participantes foram solicitados a interagir com o LLM pelo menos uma vez usando os detalhes fornecidos, mas poderiam usá-lo quantas vezes quisessem para chegar ao seu autodiagnóstico e à ação pretendida.

Nos bastidores, uma equipe de médicos decidiu, por unanimidade, quais as condições "padrão ouro" que buscavam em cada cenário e o curso de ação correspondente. Nosso aluno de engenharia, por exemplo, está sofrendo de uma hemorragia subaracnoide, o que deve levar a uma visita imediata ao pronto-socorro.

Embora se possa presumir que um LLM com aproveitamento em um exame médico seria a ferramenta perfeita para ajudar pessoas comuns a se autodiagnosticarem e descobrirem o que fazer, não foi bem assim. "Os participantes que utilizaram um LLM identificaram condições relevantes com menos consistência do que os do grupo de controle, identificando pelo menos uma condição relevante em no máximo 34,5% dos casos, em comparação com 47,0% do grupo de controle", afirma o estudo. Eles também não conseguiram deduzir o curso de ação correto, selecionando-o em apenas 44,2% das vezes, em comparação com 56,3% dos participantes de um LLM com atuação independente.

O que deu errado?

Analisando as transcrições, os pesquisadores descobriram que os participantes forneceram informações incompletas aos LLMs e que estes interpretaram mal suas instruções. Por exemplo, um usuário que supostamente apresentava sintomas de cálculos biliares simplesmente disse ao LLM: "Tenho fortes dores de estômago que duram até uma hora. Podem me fazer vomitar e parecem coincidir com uma refeição para viagem", omitindo a localização da dor, a intensidade e a frequência. O comando R+ sugeriu incorretamente que o participante estava com indigestão, e o participante erroneamente adivinhou essa condição.

Mesmo quando os LLMs forneciam as informações corretas, os participantes nem sempre seguiam suas recomendações. O estudo constatou que 65,7% das conversas do GPT-40 sugeriam pelo menos uma condição relevante para o cenário, mas, de alguma forma, menos de 34,5% das respostas finais dos participantes refletiam essas condições relevantes.

Este estudo é útil, mas não surpreendente, de acordo com Nathalie Volkheimer, especialista em experiência do usuário no Renaissance Computing Institute (RENCI) , da Universidade da Carolina do Norte em Chapel Hill.

“Para aqueles de nós com idade suficiente para se lembrar dos primórdios das buscas na internet, isso é um déjà vu”, diz ela. “Como ferramenta, modelos de linguagem extensos exigem que os prompts sejam escritos com um certo grau de qualidade, especialmente quando se espera um resultado de qualidade.”

Ela ressalta que alguém sentindo uma dor ofuscante não daria bons sinais. Embora os participantes de um experimento de laboratório não estivessem sentindo os sintomas diretamente, eles não estavam relatando todos os detalhes.

“Há também uma razão pela qual os médicos que lidam com pacientes na linha de frente são treinados para fazer perguntas de uma determinada maneira e com certa repetitividade”, prossegue Volkheimer. Os pacientes omitem informações porque não sabem o que é relevante ou, na pior das hipóteses, mentem porque se sentem constrangidos ou envergonhados.

Os chatbots podem ser melhor projetados para lidar com essas questões? "Eu não daria ênfase às máquinas aqui", alerta Volkheimer. "Eu consideraria que a ênfase deveria ser na interação humano-tecnologia." O carro, ela compara, foi construído para levar as pessoas do ponto A ao B, mas muitos outros fatores influenciam. "Tudo depende do motorista, das estradas, do clima e da segurança geral da rota. Não depende apenas da máquina."

O estudo de Oxford destaca um problema, não com humanos ou mesmo com LLMs, mas com a maneira como às vezes os medimos: no vácuo.

Quando dizemos que um LLM pode ser aprovado em um exame de licenciamento médico, no exame de licenciamento imobiliário ou no exame da OAB, estamos explorando a profundidade de sua base de conhecimento usando ferramentas projetadas para avaliar humanos. No entanto, essas medidas nos dizem muito pouco sobre o sucesso da interação desses chatbots com humanos.

“As instruções eram um manual (conforme validado pela fonte e pela comunidade médica), mas a vida e as pessoas não são manuais”, explica o Dr. Volkheimer.

Imagine uma empresa prestes a implantar um chatbot de suporte treinado em sua base de conhecimento interna. Uma maneira aparentemente lógica de testar esse bot seria simplesmente submetê-lo ao mesmo teste que a empresa utiliza para estagiários de suporte ao cliente: responder a perguntas pré-escritas de suporte ao cliente e selecionar respostas de múltipla escolha. Uma precisão de 95% certamente pareceria bastante promissora.

Então vem a implementação: clientes reais usam termos vagos, expressam frustração ou descrevem problemas de maneiras inesperadas. O LLM, avaliado apenas por perguntas claras, fica confuso e fornece respostas incorretas ou inúteis. Ele não foi treinado ou avaliado para apaziguar situações ou buscar esclarecimentos de forma eficaz. Avaliações irritadas se acumulam. O lançamento é um desastre, apesar do LLM ter passado por testes que pareciam robustos para seus equivalentes humanos.

Este estudo serve como um lembrete crucial para engenheiros de IA e especialistas em orquestração: se um LLM for projetado para interagir com humanos, confiar apenas em benchmarks não interativos pode criar uma perigosa falsa sensação de segurança sobre suas capacidades no mundo real. Se você está projetando um LLM para interagir com humanos, precisa testá-lo com humanos – não testes para humanos. Mas existe uma maneira melhor?

Os pesquisadores de Oxford recrutaram quase 1.300 pessoas para o estudo, mas a maioria das empresas não tem um grupo de participantes de teste esperando para testar um novo agente de LLM. Então, por que não substituir testadores humanos por testadores de IA?

Mahdi e sua equipe também tentaram isso com participantes simulados. "Você é um paciente", eles sugeriram a um LLM, separado daquele que forneceria o aconselhamento. "Você precisa autoavaliar seus sintomas com base na vinheta do caso apresentado e na assistência de um modelo de IA. Simplifique a terminologia usada no parágrafo fornecido para uma linguagem leiga e mantenha suas perguntas ou declarações razoavelmente curtas." O LLM também foi instruído a não utilizar conhecimento médico nem gerar novos sintomas.

Esses participantes simulados então conversaram com os mesmos LLMs que os participantes humanos usaram. Mas tiveram um desempenho muito melhor. Em média, os participantes simulados que usaram as mesmas ferramentas de LLM acertaram as condições relevantes em 60,7% das vezes, em comparação com menos de 34,5% dos humanos.

Nesse caso, verifica-se que os LLMs interagem melhor com outros LLMs do que os humanos, o que os torna um mau indicador do desempenho na vida real.

Considerando as pontuações que os LLMs poderiam alcançar sozinhos, pode ser tentador culpar os participantes. Afinal, em muitos casos, eles receberam o diagnóstico correto em suas conversas com os LLMs, mas ainda assim não conseguiram acertá-lo. Mas essa seria uma conclusão imprudente para qualquer empresa, alerta Volkheimer.

“Em qualquer ambiente de cliente, se seus clientes não estão fazendo o que você quer, a última coisa que você faz é culpá-los”, diz Volkheimer. “A primeira coisa que você faz é perguntar por quê. E não o 'por quê' que vem à mente: mas um 'por quê' profundo, investigativo, específico, antropológico, psicológico e examinado. Esse é o seu ponto de partida.”

Você precisa entender seu público, seus objetivos e a experiência do cliente antes de implementar um chatbot, sugere Volkheimer. Tudo isso embasará a documentação completa e especializada que, em última análise, tornará um LLM útil. Sem materiais de treinamento cuidadosamente selecionados, "ele vai gerar uma resposta genérica que todo mundo odeia, e é por isso que as pessoas odeiam chatbots", diz ela. Quando isso acontece, "não é porque os chatbots são terríveis ou porque há algo tecnicamente errado com eles. É porque o material que foi usado neles é ruim".

“As pessoas que projetam a tecnologia, desenvolvem as informações que serão inseridas, os processos e sistemas são, bem, pessoas”, diz Volkheimer. “Elas também têm histórico, premissas, falhas e pontos cegos, além de pontos fortes. E todos esses elementos podem ser incorporados a qualquer solução tecnológica.”

Insights diários sobre casos de uso de negócios com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e obter o máximo ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais newsletters do VB aqui .

Ocorreu um erro.

venturebeat

venturebeat

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow