Seleccione idioma

Spanish

Down Icon

Seleccione país

America

Down Icon

Solo hay que añadir humanos: un estudio médico de Oxford subraya el eslabón perdido en las pruebas de chatbots

Solo hay que añadir humanos: un estudio médico de Oxford subraya el eslabón perdido en las pruebas de chatbots

Únase al evento en el que los líderes empresariales confían desde hace casi dos décadas. VB Transform reúne a quienes desarrollan una verdadera estrategia de IA empresarial. Más información.

Los titulares lo han estado proclamando durante años: los modelos de lenguaje grandes (LLM) no solo pueden aprobar los exámenes de licencia médica, sino que también superan a los humanos. El GPT-4 podía responder correctamente las preguntas de los exámenes de licencia médica en EE. UU. el 90 % de las veces, incluso en la prehistoria de la IA de 2023. Desde entonces, los LLM han superado a los residentes que presentan dichos exámenes y a los médicos con licencia .

Hazte a un lado, Doctor Google, abre paso a ChatGPT, MD. Pero quizá quieras algo más que un diploma del Máster en Derecho que ofreces a tus pacientes. Como un estudiante de medicina brillante que puede recitar el nombre de cada hueso de la mano, pero se desmaya al ver sangre real, el dominio de la medicina de un Máster en Derecho no siempre se traduce directamente en el mundo real.

Un artículo realizado por investigadores de la Universidad de Oxford descubrió que, si bien los LLM podían identificar correctamente las condiciones relevantes el 94,9 % de las veces cuando se les presentaban escenarios de prueba directamente, los participantes humanos que usaban LLM para diagnosticar los mismos escenarios identificaban las condiciones correctas menos del 34,5 % de las veces.

Quizás aún más notable, los pacientes que utilizaron LLM obtuvieron un rendimiento incluso peor que un grupo de control, al que simplemente se le indicó que se autodiagnosticara utilizando "cualquier método que emplearían habitualmente en casa". El grupo que se dejó a su suerte tuvo un 76 % más de probabilidades de identificar las afecciones correctas que el grupo asistido por LLM.

El estudio de Oxford plantea interrogantes sobre la idoneidad de los LLM para el asesoramiento médico y los puntos de referencia que utilizamos para evaluar las implementaciones de chatbots para diversas aplicaciones.

Dirigidos por el Dr. Adam Mahdi, investigadores de Oxford reclutaron a 1298 participantes para que se presentaran como pacientes a un LLM. Se les asignó la tarea de intentar determinar su afección y el nivel de atención adecuado, desde el autocuidado hasta llamar a una ambulancia.

Cada participante recibió un escenario detallado que representaba afecciones desde neumonía hasta un resfriado común, junto con detalles generales de su vida y su historial médico. Por ejemplo, un escenario describe a un estudiante de ingeniería de 20 años que sufre un fuerte dolor de cabeza durante una salida nocturna con amigos. Incluye detalles médicos importantes (le duele mirar hacia abajo) y pistas falsas (bebedor habitual, comparte piso con seis amigos y acaba de terminar unos exámenes estresantes).

El estudio probó tres LLM diferentes. Los investigadores seleccionaron GPT-4o por su popularidad, Llama 3 por sus pesos abiertos y Command R+ por sus capacidades de generación aumentada por recuperación (RAG), que le permiten buscar ayuda en la web abierta.

Se pidió a los participantes que interactuaran con el LLM al menos una vez utilizando los detalles proporcionados, pero podían usarlo tantas veces como quisieran para llegar a su autodiagnóstico y la acción prevista.

Tras bambalinas, un equipo de médicos decidió por unanimidad las condiciones óptimas que buscaban en cada escenario y el curso de acción correspondiente. Nuestro estudiante de ingeniería, por ejemplo, sufre una hemorragia subaracnoidea, lo que debería requerir una visita inmediata a urgencias.

Aunque se podría suponer que un Máster en Derecho (LLM) capaz de aprobar un examen médico sería la herramienta perfecta para ayudar a la gente común a autodiagnosticarse y saber qué hacer, no fue así. "Los participantes que utilizaron un LLM identificaron afecciones relevantes con menor consistencia que los del grupo de control, identificando al menos una afección relevante en un máximo del 34,5 % de los casos, en comparación con el 47,0 % del grupo de control", afirma el estudio. Tampoco lograron deducir el curso de acción correcto, seleccionándolo solo el 44,2 % de las veces, en comparación con el 56,3 % de los participantes que actuaron de forma independiente.

¿Qué salió mal?

Al revisar las transcripciones, los investigadores descubrieron que los participantes proporcionaron información incompleta a los LLM y que estos malinterpretaron sus indicaciones. Por ejemplo, un usuario que supuestamente presentaba síntomas de cálculos biliares simplemente le dijo al LLM: "Tengo fuertes dolores de estómago que duran hasta una hora. Me provocan vómitos y parece coincidir con comida para llevar", omitiendo la ubicación del dolor, la intensidad y la frecuencia. El comando R+ sugirió incorrectamente que el participante sufría indigestión, y el participante adivinó erróneamente dicha condición.

Incluso cuando los LLM proporcionaban la información correcta, los participantes no siempre seguían sus recomendaciones. El estudio reveló que el 65,7 % de las conversaciones de GPT-4o sugerían al menos una condición relevante para el escenario, pero, por alguna razón, menos del 34,5 % de las respuestas finales de los participantes reflejaban dichas condiciones relevantes.

Este estudio es útil, pero no sorprendente, según Nathalie Volkheimer, especialista en experiencia de usuario del Renaissance Computing Institute (RENCI) de la Universidad de Carolina del Norte en Chapel Hill.

“Para quienes tenemos la edad suficiente para recordar los inicios de las búsquedas en internet, esto es una experiencia inolvidable”, dice. “Como herramienta, los modelos lingüísticos extensos requieren que las indicaciones se escriban con un grado particular de calidad, especialmente cuando se espera un resultado de calidad”.

Señala que alguien que experimenta un dolor cegador no ofrecería buenas indicaciones. Aunque los participantes en un experimento de laboratorio no experimentaban los síntomas directamente, no transmitían cada detalle.

“También hay una razón por la que los profesionales sanitarios que atienden a pacientes en primera línea están capacitados para hacer preguntas de cierta manera y con cierta repetitividad”, continúa Volkheimer. Los pacientes omiten información porque desconocen qué es relevante o, en el peor de los casos, mienten por vergüenza.

¿Se podrían diseñar mejor los chatbots para abordarlos? "No pondría el énfasis en la maquinaria", advierte Volkheimer. "Consideraría que el énfasis debería estar en la interacción entre el ser humano y la tecnología". El coche, como analogía, se construyó para llevar a la gente del punto A al B, pero muchos otros factores influyen. "Se trata del conductor, las carreteras, el clima y la seguridad general de la ruta. No depende solo de la máquina".

El estudio de Oxford destaca un problema, no con los humanos ni con los LLM, sino con la forma en que a veces los medimos: en el vacío.

Cuando decimos que un LLM puede aprobar un examen de licencia médica, un examen de licencia inmobiliaria o un examen del Colegio de Abogados del Estado, estamos explorando la profundidad de su base de conocimientos utilizando herramientas diseñadas para evaluar a humanos. Sin embargo, estas medidas nos dicen muy poco sobre el éxito de la interacción de estos chatbots con los humanos.

“Las indicaciones eran de libro de texto (tal como lo validaron la fuente y la comunidad médica), pero la vida y las personas no son de libro de texto”, explica el Dr. Volkheimer.

Imagine una empresa a punto de implementar un chatbot de soporte entrenado con su base de conocimientos interna. Una forma aparentemente lógica de probarlo podría ser simplemente que realice la misma prueba que la empresa usa para los aprendices de atención al cliente: responder preguntas preescritas de atención al cliente y seleccionar respuestas de opción múltiple. Una precisión del 95 % sería sin duda bastante prometedora.

Luego viene la implementación: Los clientes reales usan términos vagos, expresan frustración o describen los problemas de forma inesperada. El LLM, evaluado únicamente con preguntas claras, se confunde y ofrece respuestas incorrectas o inútiles. No ha recibido capacitación ni evaluación sobre cómo desescalar situaciones ni buscar aclaraciones eficazmente. Se acumulan críticas negativas. El lanzamiento es un desastre, a pesar de que el LLM superó con éxito las pruebas que parecían sólidas para sus homólogos humanos.

Este estudio sirve como recordatorio crucial para ingenieros de IA y especialistas en orquestación: si un LLM está diseñado para interactuar con humanos, basarse únicamente en puntos de referencia no interactivos puede generar una peligrosa falsa sensación de seguridad sobre sus capacidades en el mundo real. Si se diseña un LLM para interactuar con humanos, es necesario probarlo con humanos, no para humanos. Pero ¿existe una mejor manera?

Los investigadores de Oxford reclutaron a casi 1300 personas para su estudio, pero la mayoría de las empresas no cuentan con un grupo de sujetos de prueba esperando para probar un nuevo agente LLM. Entonces, ¿por qué no sustituir a los evaluadores humanos por evaluadores de IA?

Mahdi y su equipo también lo intentaron con participantes simulados. "Eres un paciente", le indicaron a un LLM, distinto del que brindaría el asesoramiento. "Debes autoevaluar tus síntomas a partir de la viñeta del caso y la ayuda de un modelo de IA. Simplifica la terminología del párrafo a un lenguaje sencillo y mantén tus preguntas o afirmaciones razonablemente breves". También se le indicó al LLM que no usara conocimientos médicos ni generara nuevos síntomas.

Estos participantes simulados conversaron con las mismas herramientas LLM que usaron los participantes humanos. Sin embargo, su desempeño fue mucho mejor. En promedio, los participantes simulados que usaron las mismas herramientas LLM respondieron correctamente a las condiciones relevantes el 60,7 % de las veces, en comparación con menos del 34,5 % en los humanos.

En este caso, resulta que los LLM se llevan mejor con otros LLM que los humanos, lo que los convierte en un mal predictor del rendimiento en la vida real.

Dadas las puntuaciones que los LLM podrían alcanzar por sí solos, podría ser tentador culpar a los participantes. Después de todo, en muchos casos, recibieron los diagnósticos correctos en sus conversaciones con los LLM, pero aun así no los adivinaron correctamente. Pero esa sería una conclusión imprudente para cualquier empresa, advierte Volkheimer.

“En cualquier entorno de atención al cliente, si estos no hacen lo que uno espera, lo último que se puede hacer es culparlos”, dice Volkheimer. “Lo primero que se debe hacer es preguntarse por qué. Y no el 'por qué' que uno se imagina, sino un 'por qué' profundo, investigativo, específico, antropológico, psicológico y examinado. Ese es el punto de partida”.

Es necesario comprender a la audiencia, sus objetivos y la experiencia del cliente antes de implementar un chatbot, sugiere Volkheimer. Todo esto contribuirá a la documentación exhaustiva y especializada que, en última instancia, hará que un LLM sea útil. Sin materiales de capacitación cuidadosamente seleccionados, «se obtendrá una respuesta genérica que todos detestan, razón por la cual la gente odia los chatbots», afirma. Cuando esto sucede, «no es porque los chatbots sean terribles ni porque tengan algún problema técnico. Es porque el material que contienen es defectuoso».

“Quienes diseñan la tecnología, desarrollan la información necesaria, los procesos y sistemas, son, en definitiva, personas”, afirma Volkheimer. “También tienen experiencia, suposiciones, defectos y puntos débiles, así como fortalezas. Y todo eso puede integrarse en cualquier solución tecnológica”.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow