Seleccione idioma

Spanish

Down Icon

Seleccione país

Spain

Down Icon

¿Lunar o cáncer? El algoritmo que se equivoca en uno de cada tres melanomas y obvia a los pacientes con la piel oscura

¿Lunar o cáncer? El algoritmo que se equivoca en uno de cada tres melanomas y obvia a los pacientes con la piel oscura

El tiempo es oro. Especialmente si hablamos de melanoma, el cáncer de piel más peligroso: diagnosticar cuanto antes este tumor resulta decisivo para salvar vidas, más que en casi cualquier otro cáncer. En España, se estima que en 2025 habrá cerca de 9.400 casos de melanoma, un tumor muy agresivo, que puede diseminarse rápido y causar metástasis en apenas unos meses. Cuando esto ocurre, el pronóstico suele ser malo, por lo que cualquier error en la detección puede resultar fatal.

Precisamente esta urgencia ha llevado al País Vasco a apostar por la inteligencia artificial (IA). “El Servicio Vasco de Salud, Osakidetza, trabaja para que sus centros de salud y hospitales públicos incorporen Quantus Skin, un algoritmo diseñado para diagnosticar el riesgo de cáncer de piel, incluido el melanoma. En teoría, promete agilizar el proceso: desde atención primaria, las médicas y médicos de familia podrán enviar al servicio de dermatología del hospital imágenes de lesiones sospechosas, junto con la probabilidad de que sean malignas, calculada de forma automatizada por el algoritmo. La idea del Gobierno vasco es que Quantus Skin, actualmente en pruebas, ayude a decidir qué pacientes deben ser atendidos primero.

Sin embargo, los datos muestran una realidad preocupante. Transmural Biotech, la empresa que comercializa Quantus Skin, llevó a cabo un estudio inicial con resultados prometedores, pero que tenía importantes limitaciones: se hizo completamente online y no se publicó en ninguna revista académica, es decir, no pasó el control de calidad habitual que se exige en ciencia.

Más adelante, dermatólogos del Hospital Ramón y Cajal de Madrid y profesores de la Universidad Complutense realizaron un segundo estudio, que sí fue publicado, para evaluar la eficacia clínica real de Quantus Skin. Este trabajo, que contó con financiación y asistencia técnica de Transmural Biotech, mostró peores resultados: el algoritmo pasa por alto uno de cada tres melanomas. Su sensibilidad es del 69%, lo que significa que deja escapar el 31% de los casos reales de este cáncer potencialmente letal.

Preguntado por Civio sobre el segundo estudio, el director general de Transmural Biotech, David Fernández Rodríguez, responde por correo de forma evasiva: “No sé ahora mismo cuál es”. Tras insistir por teléfono, cambia de versión: “Lo que estábamos haciendo eran pruebas” para detectar posibles problemas de implementación. Y, al final de la llamada, Fernández Rodríguez reconoce que Quantus Skin “no es que dejara de funcionar, funcionaba bastante peor, pero nos teníamos que dar cuenta de por qué”.

El director general de Transmural Biotech atribuye estos peores resultados a deficiencias en la toma de imágenes por no seguir las instrucciones de Quantus Skin. Es algo que han visto también en las pruebas del País Vasco. “Los médicos de primaria no están entrenados bien para coger las imágenes”, según dice, lo que apunta la necesidad de “formar a los médicos”. Sin embargo, en el segundo estudio participaron dermatólogos, especializados precisamente en fotografiar lesiones sospechosas para luego diagnosticarlas. Según Fernández Rodríguez, la fiabilidad mejoró tras “recortar bien las imágenes” porque “no estaban cumpliendo exactamente” las instrucciones.

Criticado por fuentes independientes

“Para cáncer de piel, tener una sensibilidad del 70% es muy malo. Es muy pobre. Si tú le das esto a alguien para que haga una foto, te diga si puede ser un melanoma y se equivoca en uno de cada tres, no es adecuado para un cribado de cáncer de piel en un entorno de primaria, tienes que pedirle más”, explica a Civio el doctor Josep Malvehy Guilera, director de la Unidad de Cáncer cutáneo del Hospital Clínic de Barcelona. Para la doctora Rosa Taberner Ferrer, dermatóloga en el Hospital Son Llàtzer de Mallorca y autora del blog especializado Dermapixel, “un 31% de falsos negativos suena cuanto menos peligroso. Como cribado es una castaña”.

Sin embargo, el director general de Transmural Biotech intenta minimizar el problema enfocándose solo en los datos que favorecen a su producto, evitando hablar de la baja sensibilidad de Quantus Skin. Según el mismo trabajo que analizó su eficacia clínica, el sistema falla además por partida doble: su especificidad implica un 19,8% de falsos positivos, es decir, confunde uno de cada cinco lunares benignos con melanoma. Esto supondría que el uso de Quantus Skin aconsejaría derivar innecesariamente a casi el 20% de las personas atendidas.

En el estudio, los autores —dermatólogos del Hospital Ramón y Cajal de Madrid y profesores de la Universidad Complutense de Madrid— defienden que es preferible que Quantus Skin tenga una alta especificidad (pocos falsos positivos) aunque sea a costa de una baja sensibilidad (más falsos negativos), ya que no se aplicará para diagnosticar con certeza, sino como cribado, es decir, para ayudar a filtrar casos desde atención primaria. Según su hipótesis, así se puede evitar que las consultas especializadas se saturen y bajar las listas de espera y los gastos médicos asociados.

Los especialistas consultados por Civio cuestionan la estrategia detrás del algoritmo. Aunque no existe un estándar ideal para el diagnóstico de cáncer —en parte porque depende de la agresividad de cada tumor—, lo conseguido por Quantus Skin está lejos de ser aceptable. “Si se equivoca haciendo diagnóstico de melanoma en lesiones con un riesgo potencial de crecer rápidamente y poder incluso causar la muerte del paciente, ahí tengo que ser muy poco tolerante. Ya tengo que pedir sensibilidades del 92%, 93%, 94% como mínimo”, dice Malvehy Guilera.

“Si pretenden utilizarlo como cribado, entonces el sistema debería tener una sensibilidad superalta a expensas de una especificidad un poco más bajita”, explica Taberner Ferrer. En otras palabras, es preferible que un algoritmo como este se pase de precavido: mejor errar un poco generando falsas alarmas en personas sanas que pasar por alto un caso real de cáncer.

Piel oscura, diagnóstico incierto

Los problemas de Quantus Skin van más allá de su baja sensibilidad. El trabajo solo evaluó la eficacia clínica en el diagnóstico de melanoma, pero no analizó otros tipos de cáncer de piel más frecuentes pero menos agresivos, como el carcinoma basocelular y el carcinoma de células escamosas, donde también se puede aplicar el programa. Los autores tampoco estudiaron cómo afecta el color de piel al funcionamiento del algoritmo, aunque reconocen que es una de las principales limitaciones de su investigación.

Quantus Skin, basado en redes neuronales, ha aprendido a reconocer el cáncer de piel casi exclusivamente en personas blancas. El algoritmo se alimentó primero con algo más de 56.000 imágenes de la International Skin Imaging Collaboration (ISIC), un repositorio público de fotografías médicas recopiladas principalmente por hospitales occidentales, donde la mayoría corresponden a pacientes con pieles claras. Posteriormente, Quantus Skin se probó usando imágenes de 513 pacientes del Hospital Ramón y Cajal de Madrid, todos ellos blancos.

El conjunto de datos con los que se alimentó Quantus Skin incluye imágenes “de varones y de mujeres caucásicas”, confirma el director general de Transmural Biotech. “No me quiero meter en el tema de minorías étnicas y todo esto, porque la herramienta la utiliza el País Vasco, la utiliza Osakidetza. Lo que pongo a disposición es una herramienta, con las limitaciones que tiene”, dice Fernández Rodríguez. Pese a la falta de entrenamiento en pieles más oscuras, el Gobierno vasco señala que no es necesario “implantar” ninguna medida “para promover la igualdad y la no discriminación”, según se recoge en la ficha de Quantus Skin que consta en el catálogo de algoritmos y sistemas de inteligencia artificial de Euskadi. Sin embargo, como las redes neuronales se han entrenado casi en exclusiva con imágenes de personas blancas, es probable que fallen más en pieles más oscuras, como individuos de etnia gitana o migrantes de Latinoamérica y África.

“Es muy fácil hacer que los algoritmos se equivoquen”, explica a Civio Adewole Adamson, profesor de dermatología en la Universidad de Texas, que ya advirtió en 2018 de la discriminación que podría conllevar la inteligencia artificial si no se desarrollaba de forma inclusiva y diversa, un problema que va más allá de Quantus Skin.

Sus predicciones se han confirmado. En dermatología, cuando los algoritmos se alimentan principalmente con imágenes de pacientes blancos, disminuye “la fiabilidad diagnóstica en pieles oscuras”, comenta Taberner Ferrer. El algoritmo Skin Image Search, de la compañía sueca First Derm, entrenado principalmente con fotos de pieles blancas, redujo su precisión del 70% al 17% cuando se probó en personas con piel oscura. Investigaciones más recientes han confirmado que este tipo de algoritmos funcionan peor en personas negras, algo que no se debe a problemas técnicos, sino a la falta de diversidad en los datos de entrenamiento.

Aunque el melanoma sea un cáncer mucho más frecuente en personas blancas, las personas con piel oscura tienen una supervivencia global bastante más baja. El ingeniero estadounidense Avery Smith conoce bien estas cifras. A su pareja, Latoya Smith, le detectaron un melanoma solo un año y medio después de casarse. “Me sorprendieron mucho las tasas de supervivencia según la etnia. Latoya, siendo afroamericana, estaba en la parte más baja. No lo sabía hasta que me golpeó como si me hubiera atropellado un autobús. Fue terrorífico”, cuenta a Civio. Un tiempo después del diagnóstico, a finales de 2011, Latoya murió.

Desde entonces, Avery Smith trabaja para lograr una dermatología más inclusiva y para que los algoritmos no amplifiquen las desigualdades. Para recordar el “impacto” que pueden tener, especialmente en grupos vulnerables, Smith rechaza hablar de la inteligencia artificial como una “herramienta”, como si fuera una simple “tijera”: “Es un término de márketing, una forma de hacer que la gente lo entienda. Pero es mucho más”.

De esos efectos habla también la jurista Anabel K. Arias, portavoz de la Federación de Consumidores y Usuarios (CECU): “A la hora de pensar en utilizarla para hacer diagnóstico temprano, puede haber una porción de la población que esté subrepresentada. En ese caso, el diagnóstico puede llegar a ser erróneo y tener un impacto en la salud de la persona. Se puede pensar incluso en un daño”.

Pacientes invisibles a ojos de un algoritmo

“Las personas tendemos a fiarnos mucho de la inteligencia artificial, le atribuimos unas cualidades de objetividad que no son reales”, dice Helena Matute Greño, catedrática de psicología experimental de la Universidad de Deusto. Cualquier IA utiliza la información que recibe para tomar decisiones. Si esos datos de entrada no son buenos o están incompletos, es posible que falle. Cuando se equivoca de forma sistemática, el algoritmo comete errores a los que llamamos sesgos. Y, en el caso de que afecten más a un determinado grupo de personas —por su origen, color de piel, género o edad— hablamos de sesgos discriminatorios.

Una revisión publicada en Journal of Clinical Epidemiology mostró que solo el 12% de los estudios sobre la IA en medicina analizaba si tenía sesgos. Y, cuando lo estudiaban, el sesgo más frecuente era el de tipo racial, seguido del de género y la edad, afectando en su gran mayoría a grupos que históricamente habían sufrido discriminaciones. Estos errores pueden ocurrir si los datos de entrenamiento no son suficientemente diversos y equilibrados: si los algoritmos aprenden solo de una parte de la población, funcionan peor en grupos diferentes o minoritarios.

Los errores no se limitan solo al color de piel. Las tecnologías comerciales de reconocimiento facial fallan mucho más al clasificar a mujeres negras porque históricamente se han entrenado con imágenes de hombres blancos. Algo similar ocurre con los algoritmos que analizan radiografías de tórax o que predicen enfermedades cardiovasculares, cuyo rendimiento diagnóstico es peor en mujeres si los datos de entrenamiento están desequilibrados. Por su parte, uno de los conjuntos de datos más utilizados para predecir enfermedades del hígado está completamente sesgado —el 75% corresponde a hombres—, por lo que los algoritmos que lo usan fallan mucho más en mujeres. En Reino Unido, el algoritmo para priorizar trasplantes discriminaba a las personas más jóvenes. ¿El motivo? Se había entrenado con datos limitados, que solo tenían en cuenta la supervivencia en los siguientes cinco años, y no toda la vida que podrían ganar los pacientes que recibieran un nuevo órgano.

“Los datos con los que se entrenan tienen que representar a toda la población donde luego se va a utilizar”, explica la doctora Nuria Ribelles Entrena, portavoz de la Sociedad Española de Oncología Médica (SEOM) y oncóloga del Hospital Universitario Virgen de la Victoria de Málaga. “Si solo lo entreno con un determinado grupo de pacientes, va a ser muy eficaz en ese grupo, pero en otro no”, añade.

Evitar los sesgos, una carrera de obstáculos

La solución para evitar los sesgos existe: “El conjunto de entrenamiento tiene que ser lo más amplio posible”, explica López Rueda. Pero esto no siempre se puede verificar. Hasta ahora, la mayoría de sistemas de inteligencia artificial implementados en España que usan imágenes médicas no suelen publicar los datos de entrenamiento. Así ocurre con dos dispositivos de dermatología —de los que no conocemos ni el nombre— que se activarán primero en el área sanitaria del Caudal y luego se extenderán a todo el Principado de Asturias. Y también con la aplicación comercial ClinicGram, para detectar úlceras de pie diabético, incorporada en el Hospital Universitario de Vic (Barcelona); o con los distintos sistemas privados para radiología, como BoneView y ChestView o Lunit, que están funcionando en algunos hospitales de la Comunidad de Madrid, del Principado de Asturias y de la Comunidad Valenciana.

Cuando los conjuntos de datos sí son accesibles, otro obstáculo es que no recojan metadatos, como el origen, el género, la edad o el tipo de piel, que nos permitirían comprobar si son inclusivos y equilibrados. En dermatología, la mayoría de conjuntos de datos públicos no suelen etiquetar el origen de los pacientes ni su tono de piel. Cuando sí se incluye esta información, los estudios muestran sistemáticamente que la población negra está muy infrarrepresentada. “Cada vez se es más consciente del problema y los desarrolladores de algoritmos han intentado abordar estas deficiencias. Sin embargo, aún queda trabajo por hacer”, cuenta el profesor Adamson.

En 2022, Osakidetza adjudicó un contrato de casi 1,6 millones de euros a Transmural Biotech para poner en marcha “algoritmos de inteligencia artificial en imagen médica”, exigiendo una sensibilidad y especificidad del 85% “como mínimo”. La empresa, spin-off de la Universitat de Barcelona y del Hospital Clínic, pertenece a la aseguradora privada Asisa. Según Osakidetza, pese a que los pliegos recogían varios algoritmos, finalmente se eligieron solo dos, incluido Quantus Skin, por su “mayor impacto asistencial” y por su “mayor rendimiento en salud”. Como ha podido saber Civio, la decisión se tomó de forma unilateral, sin consultar con los especialistas correspondientes. En febrero, Osakidetza también aseguró que Quantus Skin había superado “las fases de validación” y estaba “en fase de integración”. En respuesta a las preguntas de Civio sobre su eficacia clínica, ahora afirma que continúa en pruebas y que tomará decisiones “en función de los resultados obtenidos”. No obstante, evita contestar a si conocía que los datos publicados de eficacia clínica de Quantus Skin (69,1% de sensibilidad y 80,2% de especificidad) estaban por debajo del umbral del 85% que exige el contrato. Aparte de la adjudicación en el País Vasco, Transmural Biotech solo tiene otro contrato público, en Cataluña, por un importe mucho menor (25.000 euros) para certificar algoritmos de inteligencia artificial en radiología.

Este artículo se publicó originalmente en Civio, una redacción independiente sin ánimo de lucro que investiga a fondo los asuntos públicos. Puedes consultar allí la metodología completa.

EL PAÍS

EL PAÍS

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow