Grain de beauté ou cancer ? L'algorithme qui passe à côté d'un mélanome sur trois et néglige les patients à la peau foncée.

Le temps, c'est de l'argent. Surtout lorsqu'il s'agit du mélanome, le cancer de la peau le plus dangereux : diagnostiquer cette tumeur le plus tôt possible est crucial pour sauver des vies, plus que pour presque tout autre cancer . En Espagne, on estime que d'ici 2025, il y aura près de 9 400 cas de mélanome, une tumeur très agressive qui peut se propager rapidement et provoquer des métastases en quelques mois seulement. Dans ce cas, le pronostic est souvent sombre, et toute erreur de détection peut être fatale.
C'est précisément cette urgence qui a conduit le Pays basque à investir dans l'intelligence artificielle (IA). Le Service de Santé Basque, Osakidetza, s'efforce d'intégrer Quantus Skin dans ses centres de santé et hôpitaux publics, un algorithme conçu pour diagnostiquer le risque de cancer de la peau, y compris le mélanome. En théorie, il promet de simplifier le processus : dès les premiers soins, les médecins généralistes pourront envoyer des images de lésions suspectes au service de dermatologie de l'hôpital, ainsi que la probabilité de malignité, calculée automatiquement par l'algorithme. L'idée du Gouvernement basque est que Quantus Skin, actuellement en phase de test, permettra de déterminer quels patients doivent être traités en priorité.
Cependant, les données révèlent une réalité inquiétante. Transmural Biotech, la société qui commercialise Quantus Skin, a mené une première étude aux résultats prometteurs , mais avec des limites importantes : elle a été entièrement réalisée en ligne et n'a été publiée dans aucune revue académique, ce qui signifie qu'elle n'a pas été soumise au contrôle qualité habituel requis en science.
Par la suite, des dermatologues de l'hôpital Ramón y Cajal de Madrid et des professeurs de l'Université Complutense ont mené une deuxième étude, publiée le 28 janvier 2018, afin d'évaluer l'efficacité clinique réelle de Quantus Skin. Ces travaux, financés et soutenus par Transmural Biotech, ont montré des résultats moins concluants : l'algorithme a manqué un mélanome sur trois. Sa sensibilité est de 69 %, ce qui signifie qu'il manque 31 % des cas réels de ce cancer potentiellement mortel.
Interrogé par Civio sur la deuxième étude, le PDG de Transmural Biotech, David Fernández Rodríguez, a répondu évasivement par courriel : « Je ne sais pas de quelle étude il s'agit pour le moment. » Après avoir décroché le téléphone, il a changé d'avis : « Nous faisions des tests » pour détecter d'éventuels problèmes de mise en œuvre. À la fin de l'appel, Fernández Rodríguez a reconnu que Quantus Skin « n'a pas cessé de fonctionner, il a bien moins bien fonctionné, mais il fallait en comprendre la raison. »
Le PDG de Transmural Biotech attribue ces résultats moins bons à des défauts de capture d'images dus au non-respect des instructions de Quantus Skin. Ce phénomène a également été observé lors des essais au Pays basque. « Les médecins généralistes ne sont pas bien formés à la prise d'images », explique-t-il, ce qui souligne la nécessité de « former les médecins ». Cependant, la deuxième étude a porté sur des dermatologues spécialisés dans la photographie de lésions suspectes en vue d'un diagnostic ultérieur. Selon Fernández Rodríguez, la fiabilité s'est améliorée après un « recadrage minutieux des images », car elles « ne respectaient pas exactement » les instructions.
Critiqué par des sources indépendantes« Pour le cancer de la peau, une sensibilité de 70 % est très faible. C'est très faible. Si vous demandez à quelqu'un de prendre une photo pour savoir s'il pourrait s'agir d'un mélanome et qu'il se trompe une fois sur trois, ce n'est pas suffisant pour le dépistage du cancer de la peau en médecine générale ; il faut en demander davantage », explique à Civio le Dr Josep Malvehy Guilera , directeur de l'unité de cancérologie cutanée de l'hôpital Clínic de Barcelone. Pour le Dr Rosa Taberner Ferrer , dermatologue à l'hôpital Son Llàtzer de Majorque et auteure du blog spécialisé Dermapixel , « 31 % de faux négatifs, c'est pour le moins dangereux. En tant que test de dépistage, c'est un véritable casse-tête. »
Cependant, le PDG de Transmural Biotech tente de minimiser le problème en se concentrant uniquement sur les données favorables à son produit, évitant ainsi de mentionner la faible sensibilité de Quantus Skin. Selon la même étude qui a analysé son efficacité clinique, le système présente également deux défauts : sa spécificité entraîne un taux de faux positifs de 19,8 %, ce qui signifie qu'il confond un grain de beauté bénin sur cinq avec un mélanome. Cela signifie que l'utilisation de Quantus Skin entraînerait des orientations inutiles pour près de 20 % des patients traités.
Dans l' étude , les auteurs, dermatologues à l'hôpital Ramón y Cajal de Madrid et professeurs à l'Université Complutense de Madrid, soutiennent qu'il est préférable que Quantus Skin ait une spécificité élevée (peu de faux positifs), même au prix d'une faible sensibilité (plus de faux négatifs), car il ne servira pas à établir un diagnostic définitif, mais plutôt à effectuer un dépistage, c'est-à-dire à filtrer les cas en médecine générale. Selon leur hypothèse, cela pourrait éviter la saturation des consultations spécialisées et réduire les listes d'attente et les dépenses médicales associées.
Les spécialistes consultés par Civio remettent en question la stratégie derrière l'algorithme. Bien qu'il n'existe pas de norme idéale pour le diagnostic du cancer – notamment parce que cela dépend de l'agressivité de chaque tumeur –, les résultats obtenus par Quantus Skin sont loin d'être acceptables. « S'ils se trompent en diagnostiquant un mélanome sur des lésions présentant un risque potentiel de croissance rapide, voire de décès du patient, je suis obligée de faire preuve d'une grande intransigeance. Je dois déjà exiger des sensibilités minimales de 92 %, 93 %, 94 % », explique Malvehy Guilera.
« S'ils envisagent de l'utiliser pour le dépistage, le système devrait avoir une sensibilité extrêmement élevée au prix d'une spécificité légèrement inférieure », explique Taberner Ferrer. Autrement dit, il est préférable pour un tel algorithme de pécher par excès de prudence : mieux vaut se tromper légèrement en générant de fausses alertes chez des personnes en bonne santé que de passer à côté d'un cas réel de cancer.
Peau foncée, diagnostic incertainLes problèmes de Quantus Skin vont au-delà de sa faible sensibilité. L' étude a uniquement évalué son efficacité clinique dans le diagnostic du mélanome, mais n'a pas analysé d'autres cancers de la peau plus courants mais moins agressifs, tels que le carcinome basocellulaire et le carcinome épidermoïde, pour lesquels le programme peut également être appliqué. Les auteurs n'ont pas non plus étudié l'impact de la couleur de peau sur les performances de l'algorithme, bien qu'ils reconnaissent qu'il s'agit là d'une des principales limites de leur recherche.
Quantus Skin, basé sur les réseaux neuronaux, a appris à reconnaître le cancer de la peau presque exclusivement chez les personnes blanches. L'algorithme a d'abord été alimenté par un peu plus de 56 000 images provenant de l' International Skin Imaging Collaboration (ISIC) , un référentiel public de photographies médicales collectées principalement par des hôpitaux occidentaux , dont la majorité correspond à des patients à la peau claire. Quantus Skin a ensuite été testé sur des images de 513 patients de l'hôpital Ramón y Cajal de Madrid, tous blancs.
L'ensemble de données utilisé pour alimenter Quantus Skin comprend des images d'« hommes et de femmes caucasiens », confirme le directeur général de Transmural Biotech. « Je ne souhaite pas aborder la question des minorités ethniques et tout cela, car l'outil est utilisé par le Pays basque, par l'Osakidetza (l'Institut national basque de la statistique et du recensement). Ce que je mets à disposition est un outil, avec ses limites », explique Fernández Rodríguez. Malgré l'absence de formation sur les peaux foncées, le gouvernement basque indique qu'il n'est pas nécessaire de « mettre en œuvre » de mesures « pour promouvoir l'égalité et la non-discrimination », selon le fichier Quantus Skin inclus dans le catalogue des algorithmes et des systèmes d'intelligence artificielle du Pays basque. Cependant, les réseaux neuronaux ayant été entraînés presque exclusivement avec des images de personnes blanches, ils sont susceptibles d'échouer plus fréquemment avec les peaux foncées, comme celles des Roms ou des migrants d'Amérique latine et d'Afrique.
« Il est très facile de faire échouer les algorithmes », a déclaré à Civio Adewole Adamson , professeur de dermatologie à l'Université du Texas. En 2018, il a mis en garde contre la discrimination que l'intelligence artificielle pourrait engendrer si elle n'était pas développée de manière inclusive et diversifiée, un problème qui va au-delà de Quantus Skin.
Leurs prédictions se sont confirmées. En dermatologie, lorsque les algorithmes sont alimentés principalement par des images de patients blancs, la fiabilité diagnostique des peaux foncées diminue, explique Taberner Ferrer. L'algorithme Skin Image Search de la société suédoise First Derm, entraîné principalement sur des photos de peaux blanches, a vu sa précision chuter de 70 % à 17 % lorsqu'il a été testé sur des personnes à peau foncée. Des recherches plus récentes ont confirmé que ces types d'algorithmes sont moins performants sur les personnes noires, non pas en raison de problèmes techniques, mais d'un manque de diversité dans les données d'entraînement.
Bien que le mélanome soit un cancer beaucoup plus fréquent chez les personnes blanches, les personnes à la peau plus foncée ont un taux de survie global nettement inférieur . L'ingénieur américain Avery Smith est bien conscient de ces chiffres. Sa compagne, Latoya Smith, a reçu un diagnostic de mélanome un an et demi seulement après leur mariage. « J'ai été vraiment surpris par les taux de survie par origine ethnique. Latoya, étant Afro-Américaine, était au plus bas. Je ne le savais pas jusqu'à ce que cela me frappe comme si j'avais été renversé par un bus. C'était terrifiant », raconte-t-il à Civio. Quelque temps après le diagnostic, fin 2011, Latoya est décédée.
Depuis, Avery Smith œuvre pour une dermatologie plus inclusive et veille à ce que les algorithmes n'amplifient pas les inégalités . Pour souligner leur impact potentiel, notamment sur les groupes vulnérables, Smith refuse de qualifier l'intelligence artificielle d'« outil », comme s'il s'agissait simplement de « ciseaux » : « C'est un terme marketing, un moyen de se faire comprendre. Mais c'est bien plus que cela. »
Anabel K. Arias , juriste et porte-parole de la Fédération des consommateurs et usagers ( CECU ), évoque également ces effets : « Lorsqu'on envisage de l'utiliser pour un diagnostic précoce, il se peut qu'une partie de la population soit sous-représentée. Dans ce cas, le diagnostic pourrait être erroné et avoir un impact sur la santé de la personne. On pourrait même envisager un préjudice. »
Des patients invisibles aux yeux d'un algorithme« Les gens ont tendance à faire confiance à l'intelligence artificielle ; on lui attribue des qualités d'objectivité qui ne sont pas réelles », explique Helena Matute Greño , professeure de psychologie expérimentale à l'Université de Deusto. Toute IA utilise les informations qu'elle reçoit pour prendre des décisions. Si ces données d'entrée sont erronées ou incomplètes, elle peut échouer. Lorsqu'elle commet des erreurs systématiques, l'algorithme commet des erreurs que l'on appelle des biais. Et si elles affectent davantage un groupe de personnes – en raison de leur origine, de leur couleur de peau, de leur sexe ou de leur âge – on parle de biais discriminatoires.
Une revue publiée dans le Journal of Clinical Epidemiology a montré que seulement 12 % des études sur l'IA en médecine analysaient ses biais. Et, lorsqu'ils l'étaient, le biais le plus courant était le biais racial, suivi du genre et de l'âge, la grande majorité affectant des groupes historiquement victimes de discrimination. Ces erreurs peuvent survenir si les données d'apprentissage ne sont pas suffisamment diversifiées et équilibrées : si les algorithmes n'apprennent qu'à partir d'une partie de la population, leurs performances sont moins bonnes dans des groupes différents ou minoritaires.
Les erreurs ne se limitent pas à la couleur de peau. Les technologies commerciales de reconnaissance faciale échouent beaucoup plus souvent lorsqu'il s'agit de classer les femmes noires, car elles ont historiquement été entraînées sur des images d'hommes blancs. Un phénomène similaire se produit avec les algorithmes qui analysent les radiographies pulmonaires ou prédisent les maladies cardiovasculaires, dont les performances diagnostiques sont moins bonnes chez les femmes si les données d'entraînement sont déséquilibrées . Par ailleurs, l'un des ensembles de données les plus utilisés pour prédire les maladies du foie est totalement biaisé – 75 % des données concernent des hommes – de sorte que les algorithmes qui l'utilisent échouent beaucoup plus fréquemment chez les femmes. Au Royaume-Uni, l' algorithme de priorisation des transplantations était discriminatoire envers les jeunes . La raison ? Il avait été entraîné sur des données limitées, qui ne prenaient en compte que la survie dans les cinq prochaines années , et non la vie entière que les patients recevant un nouvel organe pourraient gagner.
« Les données utilisées pour la formation doivent être représentatives de l'ensemble de la population où elles seront utilisées ultérieurement », explique le Dr Nuria Ribelles Entrena , porte-parole de la Société espagnole d'oncologie médicale ( SEOM ) et oncologue à l'hôpital universitaire Virgen de la Victoria de Malaga. « Si je m'entraîne uniquement avec un groupe de patients précis, la formation sera très efficace pour ce groupe, mais pas pour un autre », ajoute-t-elle.
Éviter les biais, un parcours du combattantLa solution pour éviter les biais existe : « L'ensemble d'apprentissage doit être le plus large possible », explique López Rueda. Mais cela n'est pas toujours vérifiable. Jusqu'à présent, la plupart des systèmes d'intelligence artificielle déployés en Espagne et utilisant des images médicales ne publient généralement pas de données d'apprentissage. C'est le cas de deux dispositifs dermatologiques – dont les noms sont inconnus – qui seront d'abord activés dans la zone de santé Caudal, puis étendus à toute la Principauté des Asturies. C'est également le cas de l'application commerciale ClinicGram , destinée à la détection des ulcères du pied diabétique, mise en œuvre à l'hôpital universitaire de Vic (Barcelone) ; ou encore des différents systèmes de radiologie privés, tels que BoneView et ChestView, ou Lunit, qui fonctionnent dans certains hôpitaux de la Communauté de Madrid, de la Principauté des Asturies et de la Communauté valencienne.
Lorsque les ensembles de données sont accessibles, un autre obstacle réside dans l'absence de métadonnées, telles que l'origine, le sexe, l'âge ou le type de peau, qui nous permettraient de vérifier leur caractère inclusif et équilibré. En dermatologie , la plupart des ensembles de données publics n'indiquent généralement pas l'origine ou le teint des patients. Lorsque ces informations sont incluses, les études montrent systématiquement que les personnes noires sont significativement sous-représentées . « La prise de conscience du problème est croissante, et les développeurs d'algorithmes ont tenté de combler ces lacunes. Cependant, il reste encore du travail à faire », déclare le professeur Adamson.
En 2022, Osakidetza a attribué un contrat de près de 1,6 million d'euros à Transmural Biotech pour la mise en œuvre d'« algorithmes d'intelligence artificielle en imagerie médicale », exigeant une sensibilité et une spécificité d'« au moins » 85 %. L'entreprise, spin-off de l'Université de Barcelone et de l'Hospital Clínic, appartient à la compagnie d'assurance privée Asisa. Selon Osakidetza, malgré le fait que le cahier des charges incluait plusieurs algorithmes, seuls deux ont finalement été retenus, dont Quantus Skin, pour son « impact sanitaire accru » et ses « performances sanitaires supérieures ». Comme Civio l'a appris, la décision a été prise unilatéralement, sans consultation des spécialistes concernés. En février, Osakidetza a également déclaré que Quantus Skin avait franchi les « phases de validation » et était « en phase d'intégration ». En réponse aux questions de Civio sur son efficacité clinique, elle affirme désormais que le produit est toujours en phase de tests et qu'elle prendra des décisions « en fonction des résultats obtenus ». Il évite toutefois de préciser s'il savait que les données d'efficacité clinique publiées pour Quantus Skin (sensibilité de 69,1 % et spécificité de 80,2 %) étaient inférieures au seuil de 85 % requis par le contrat. Outre l'attribution au Pays basque, Transmural Biotech n'a qu'un seul autre contrat public, en Catalogne, d'un montant bien moindre (25 000 €), pour certifier des algorithmes d'intelligence artificielle en radiologie.
Cet article a été initialement publié sur Civio , une rédaction indépendante à but non lucratif qui mène des recherches approfondies sur les affaires publiques. Vous trouverez la méthodologie complète ici .
EL PAÍS