Moedervlek of kanker? Het algoritme dat één op de drie melanomen mist en patiënten met een donkere huid over het hoofd ziet.

Tijd is geld. Vooral als het gaat om melanoom, de gevaarlijkste huidkanker: het zo vroeg mogelijk diagnosticeren van deze tumor is cruciaal om levens te redden, meer dan bij bijna elke andere kanker . In Spanje zullen er naar schatting tegen 2025 bijna 9400 gevallen zijn van melanoom, een zeer agressieve tumor die zich snel kan verspreiden en binnen enkele maanden uitzaaiingen kan veroorzaken. Wanneer dit gebeurt, is de prognose vaak slecht, dus elke fout in de detectie kan fataal zijn.
Juist deze urgentie heeft Baskenland ertoe aangezet te investeren in kunstmatige intelligentie (AI). De Baskische gezondheidsdienst Osakidetza werkt eraan om ervoor te zorgen dat haar openbare gezondheidscentra en ziekenhuizen Quantus Skin gebruiken, een algoritme dat is ontworpen om het risico op huidkanker, waaronder melanoom, te diagnosticeren. In theorie belooft het het proces te stroomlijnen: huisartsen kunnen vanuit de eerstelijnszorg beelden van verdachte huidafwijkingen naar de dermatologieafdeling van het ziekenhuis sturen, samen met de waarschijnlijkheid dat deze kwaadaardig zijn, automatisch berekend door het algoritme. De Baskische regering is van mening dat Quantus Skin, dat momenteel wordt getest, zal helpen bepalen welke patiënten als eerste behandeld moeten worden.
De gegevens laten echter een zorgwekkende realiteit zien. Transmural Biotech, het bedrijf dat Quantus Skin op de markt brengt, voerde een eerste studie uit met veelbelovende resultaten , maar deze kende aanzienlijke beperkingen: de studie werd volledig online uitgevoerd en niet gepubliceerd in een wetenschappelijk tijdschrift, waardoor de gebruikelijke kwaliteitscontrole die in de wetenschap vereist is, niet werd uitgevoerd.
Later voerden dermatologen van het Ramón y Cajal-ziekenhuis in Madrid en professoren van de Complutense Universiteit een tweede studie uit, die werd gepubliceerd in [ jaartal ontbreekt], om de klinische werkzaamheid van Quantus Skin in de praktijk te evalueren. Dit werk, gefinancierd en ondersteund door Transmural Biotech, liet slechtere resultaten zien: het algoritme miste één op de drie melanomen. De gevoeligheid is 69%, wat betekent dat het 31% van de echte gevallen van deze potentieel dodelijke kanker mist.
Gevraagd door Civio naar de tweede studie, antwoordde David Fernández Rodríguez, CEO van Transmural Biotech, ontwijkend per e-mail: "Ik weet op dit moment niet welke het is." Nadat hij had gebeld, veranderde hij zijn verhaal: "Wat we deden was testen" om mogelijke implementatieproblemen op te sporen. En aan het einde van het gesprek erkende Fernández Rodríguez dat Quantus Skin "niet stopte met werken, het werkte veel slechter, maar we moesten uitzoeken waarom."
De CEO van Transmural Biotech schrijft deze slechtere resultaten toe aan tekortkomingen in de beeldregistratie, omdat de instructies van Quantus Skin niet werden opgevolgd. Dit is iets wat ze ook zagen in de onderzoeken in Baskenland. "Huisartsen zijn niet goed opgeleid in het maken van beelden", zegt hij, wat de noodzaak van "het opleiden van artsen" onderstreept. De tweede studie betrof echter dermatologen die specifiek gespecialiseerd zijn in het fotograferen van verdachte laesies voor latere diagnose. Volgens Fernández Rodríguez verbeterde de betrouwbaarheid nadat "de beelden zorgvuldig waren bijgesneden", omdat ze "de instructies niet precies volgden".
Bekritiseerd door onafhankelijke bronnen"Voor huidkanker is een gevoeligheid van 70% erg laag. Het is echt heel laag. Als je dit aan iemand geeft om een foto te maken om te zien of het melanoom zou kunnen zijn en ze hebben één op de drie fouten, dan is dat niet voldoende voor huidkankerscreening in de eerstelijnszorg; je moet om meer vragen", legt Dr. Josep Malvehy Guilera , directeur van de afdeling Huidkanker van het Hospital Clínic in Barcelona, uit aan Civio. Voor Dr. Rosa Taberner Ferrer , dermatoloog in het Son Llàtzer Ziekenhuis op Mallorca en auteur van de gespecialiseerde blog Dermapixel , "klinkt 31% vals-negatieven op zijn zachtst gezegd gevaarlijk. Als screeningstest is het een kastanje."
De CEO van Transmural Biotech probeert het probleem echter te minimaliseren door zich alleen te richten op gegevens die zijn product bevoordelen, en de lage gevoeligheid van Quantus Skin te vermijden. Volgens dezelfde studie die de klinische werkzaamheid analyseerde, schiet het systeem ook op twee punten tekort: de specificiteit resulteert in een vals-positief percentage van 19,8%, wat betekent dat één op de vijf goedaardige moedervlekken wordt aangezien voor melanoom. Dit zou betekenen dat het gebruik van Quantus Skin zou leiden tot onnodige doorverwijzingen voor bijna 20% van de behandelde patiënten.
In de studie stellen de auteurs – dermatologen van het Ramón y Cajal Ziekenhuis in Madrid en professoren aan de Complutense Universiteit van Madrid – dat Quantus Skin de voorkeur verdient met een hoge specificiteit (weinig vals-positieve uitslagen), zelfs ten koste van een lage gevoeligheid (meer vals-negatieve uitslagen). Het zal namelijk niet worden gebruikt voor definitieve diagnose, maar eerder voor screening, dat wil zeggen om gevallen uit de eerstelijnszorg te filteren. Volgens hun hypothese zou dit kunnen voorkomen dat consulten bij specialisten overvol raken en de wachtlijsten en de bijbehorende medische kosten kunnen verminderen.
De specialisten die Civio raadpleegt, stellen de strategie achter het algoritme ter discussie. Hoewel er geen ideale standaard is voor kankerdiagnose – deels omdat deze afhangt van de agressiviteit van elke tumor – is wat Quantus Skin heeft bereikt verre van acceptabel. "Als ze een fout maken door melanoom te diagnosticeren in laesies met een potentieel risico op snelle groei en zelfs de dood van de patiënt, moet ik zeer intolerant zijn. Ik moet nu al minimaal sensitiviteiten van 92%, 93% en 94% eisen", aldus Malvehy Guilera.
"Als ze het voor screening willen gebruiken, moet het systeem een extreem hoge gevoeligheid hebben ten koste van een iets lagere specificiteit", legt Taberner Ferrer uit. Met andere woorden, het is beter dat een algoritme als dit het zekere voor het onzekere neemt: beter een klein foutje door valse alarmen te genereren bij gezonde mensen dan een echt geval van kanker te missen.
Donkere huid, onzekere diagnoseDe problemen met Quantus Skin gaan verder dan de lage gevoeligheid. De studie evalueerde alleen de klinische werkzaamheid bij het diagnosticeren van melanomen, maar analyseerde geen andere, meer voorkomende maar minder agressieve vormen van huidkanker, zoals basaalcelcarcinoom en plaveiselcelcarcinoom, waar het programma ook kan worden toegepast. De auteurs hebben ook niet onderzocht hoe huidskleur de prestaties van het algoritme beïnvloedt, hoewel ze erkennen dat dit een van de belangrijkste beperkingen van hun onderzoek is.
Quantus Skin, gebaseerd op neurale netwerken, heeft geleerd huidkanker bijna uitsluitend bij blanke mensen te herkennen. Het algoritme werd eerst gevoed met ruim 56.000 afbeeldingen van de International Skin Imaging Collaboration (ISIC) , een openbare database met medische foto's die voornamelijk door westerse ziekenhuizen worden verzameld, waarvan de meeste afkomstig zijn van patiënten met een lichte huid. Quantus Skin werd vervolgens getest met afbeeldingen van 513 patiënten uit het Ramón y Cajal-ziekenhuis in Madrid, allemaal blank.
De dataset die Quantus Skin voedt, bevat afbeeldingen van "blanke mannen en vrouwen", bevestigt de algemeen directeur van Transmural Biotech. "Ik wil niet ingaan op de kwestie van etnische minderheden en zo, omdat de tool wordt gebruikt door Baskenland, door Osakidetza (het Baskische Nationaal Instituut voor Statistiek en Volkstellingen). Wat ik beschikbaar stel, is een tool met zijn beperkingen", zegt Fernández Rodríguez. Ondanks het gebrek aan training in donkere huidskleuren, geeft de Baskische regering aan dat het niet nodig is om maatregelen te "implementeren" "ter bevordering van gelijkheid en non-discriminatie", aldus het Quantus Skin-bestand dat is opgenomen in de catalogus van algoritmen en kunstmatige-intelligentiesystemen van Baskenland. Omdat de neurale netwerken echter bijna uitsluitend zijn getraind met afbeeldingen van blanke mensen, zullen ze waarschijnlijk vaker falen bij donkere huidskleuren, zoals die van Roma of migranten uit Latijns-Amerika en Afrika.
"Algoritmes kunnen heel gemakkelijk falen", vertelde Adewole Adamson , hoogleraar dermatologie aan de Universiteit van Texas, aan Civio. Hij waarschuwde in 2018 voor de discriminatie die kunstmatige intelligentie zou kunnen veroorzaken als deze niet op een inclusieve en diverse manier zou worden ontwikkeld, een probleem dat verder reikt dan Quantus Skin.
Hun voorspellingen zijn bevestigd. In de dermatologie neemt de "diagnostische betrouwbaarheid bij donkere huidtinten" af wanneer algoritmen voornamelijk afbeeldingen van blanke patiënten krijgen aangeleverd, aldus Taberner Ferrer. Het Skin Image Search -algoritme van het Zweedse bedrijf First Derm, dat voornamelijk is getraind op foto's van blanke huid, zag de nauwkeurigheid dalen van 70% naar 17% bij tests op mensen met een donkere huid. Recenter onderzoek heeft bevestigd dat dit soort algoritmen slechter presteren bij zwarte mensen, niet vanwege technische problemen, maar vanwege een gebrek aan diversiteit in de trainingsdata.
Hoewel melanoom een kankersoort is die veel vaker voorkomt bij blanke mensen, hebben mensen met een donkere huid een aanzienlijk lagere algehele overlevingskans. De Amerikaanse ingenieur Avery Smith is zich terdege bewust van deze cijfers. Zijn partner, Latoya Smith, kreeg slechts anderhalf jaar na hun huwelijk de diagnose melanoom. "Ik was echt verrast door de overlevingskansen per etniciteit. Latoya, als Afro-Amerikaan, stond onderaan. Ik wist dat pas toen het me trof alsof ik door een bus was aangereden. Het was angstaanjagend," vertelt hij aan Civio. Enige tijd na de diagnose, eind 2011, overleed Latoya.
Sindsdien werkt Avery Smith aan een inclusievere dermatologie en wil ze ervoor zorgen dat algoritmen ongelijkheden niet versterken . Om de "impact" die ze kunnen hebben te benadrukken, met name op kwetsbare groepen, wijst Smith het gebruik van kunstmatige intelligentie als een "gereedschap" af, alsof het simpelweg een "schaar" is: "Het is een marketingterm, een manier om mensen het te laten begrijpen. Maar het is veel meer."
Juridisch expert Anabel K. Arias , woordvoerder van de Federatie van Consumenten en Gebruikers ( CECU ), spreekt ook over deze effecten: "Wanneer men overweegt het te gebruiken voor vroege diagnose, kan een deel van de bevolking ondervertegenwoordigd zijn. In dat geval kan de diagnose onjuist zijn en gevolgen hebben voor de gezondheid van de persoon. Men zou zelfs kunnen denken aan schade."
Patiënten onzichtbaar voor de ogen van een algoritme"Mensen hebben de neiging om kunstmatige intelligentie (AI) sterk te vertrouwen. We schrijven er objectieve eigenschappen aan toe die er niet zijn", zegt Helena Matute Greño , hoogleraar experimentele psychologie aan de Universiteit van Deusto. Elke AI gebruikt de informatie die ze ontvangt om beslissingen te nemen. Als die invoergegevens niet goed of onvolledig zijn, kan ze falen. Wanneer het algoritme systematische fouten maakt, begaat het fouten die we biases noemen. En als ze een bepaalde groep mensen sterker treffen – vanwege hun afkomst, huidskleur, geslacht of leeftijd – spreken we van discriminerende biases.
Uit een review gepubliceerd in het Journal of Clinical Epidemiology bleek dat slechts 12% van de studies naar AI in de geneeskunde analyseerde of er sprake was van bias. En als dat wel het geval was, was de meest voorkomende bias raciale bias, gevolgd door gender en leeftijd. De overgrote meerderheid betrof groepen die historisch gezien te maken hadden met discriminatie. Deze fouten kunnen optreden als de trainingsdata niet voldoende divers en evenwichtig zijn: als algoritmen slechts van een deel van de bevolking leren, presteren ze slechter in andere of minderheidsgroepen.
Fouten beperken zich niet alleen tot huidskleur. Commerciële gezichtsherkenningstechnologieën falen veel vaker bij het classificeren van zwarte vrouwen, omdat ze historisch gezien zijn getraind op afbeeldingen van blanke mannen. Iets soortgelijks gebeurt met algoritmen die thoraxfoto's analyseren of hart- en vaatziekten voorspellen, waarvan de diagnostische prestaties slechter zijn bij vrouwen als de trainingsdata niet in evenwicht zijn . Ondertussen is een van de meest gebruikte datasets voor het voorspellen van leverziekte volledig bevooroordeeld - 75% van de data is mannen - dus de algoritmen die het gebruiken falen veel vaker bij vrouwen. In het Verenigd Koninkrijk discrimineerde het algoritme voor het prioriteren van transplantaties tegen jongere mensen . De reden? Het was getraind met beperkte data, die alleen rekening hield met de overleving in de komende vijf jaar , en niet met de volledige levensduur die patiënten die een nieuw orgaan ontvingen, konden winnen.
"De gegevens die voor de training worden gebruikt, moeten representatief zijn voor de gehele populatie waar ze later gebruikt zullen worden", legt dr. Nuria Ribelles Entrena uit, woordvoerder van de Spaanse Vereniging voor Medische Oncologie ( SEOM ) en oncoloog aan het Universitair Ziekenhuis Virgen de la Victoria in Malaga. "Als ik alleen met een bepaalde groep patiënten train, zal het bij die groep zeer effectief zijn, maar bij een andere groep niet", voegt ze eraan toe.
Het vermijden van vooroordelen, een hindernisbaanDe oplossing om bias te voorkomen bestaat: "De trainingsset moet zo breed mogelijk zijn", legt López Rueda uit. Maar dit is niet altijd te verifiëren. Tot nu toe publiceren de meeste in Spanje geïmplementeerde systemen voor kunstmatige intelligentie (AI) die medische beelden gebruiken doorgaans geen trainingsgegevens. Dit is het geval met twee dermatologische apparaten – waarvan de namen onbekend zijn – die eerst in de Caudal-gezondheidszone worden geactiveerd en vervolgens worden uitgebreid naar het hele Vorstendom Asturië. Dit geldt ook voor de commerciële applicatie ClinicGram , voor de detectie van diabetische voetulcera, geïmplementeerd in het Universitair Ziekenhuis van Vic (Barcelona); of voor de verschillende particuliere radiologiesystemen, zoals BoneView en ChestView, of Lunit, die in sommige ziekenhuizen in de regio Madrid, het Vorstendom Asturië en de regio Valencia worden gebruikt.
Wanneer datasets toegankelijk zijn, is een ander obstakel dat ze geen metadata bevatten, zoals afkomst, geslacht, leeftijd of huidtype, waarmee we zouden kunnen controleren of ze inclusief en evenwichtig zijn. In de dermatologie labelen de meeste openbare datasets doorgaans niet de afkomst of huidskleur van patiënten. Waar deze informatie wel is opgenomen, tonen studies consequent aan dat zwarte mensen aanzienlijk ondervertegenwoordigd zijn. "Het probleem groeit en algoritmeontwikkelaars hebben geprobeerd deze tekortkomingen aan te pakken. Er is echter nog werk aan de winkel", aldus professor Adamson.
In 2022 gunde Osakidetza een contract ter waarde van bijna € 1,6 miljoen aan Transmural Biotech voor de implementatie van "kunstmatige intelligentiealgoritmen in medische beeldvorming", waarvoor een gevoeligheid en specificiteit van "minstens" 85% vereist zijn. Het bedrijf, een spin-off van de Universiteit van Barcelona en Hospital Clínic, is eigendom van de particuliere verzekeringsmaatschappij Asisa. Volgens Osakidetza werden er, ondanks het feit dat de specificaties meerdere algoritmen bevatten, uiteindelijk slechts twee gekozen, waaronder Quantus Skin, vanwege de "grotere impact op de gezondheidszorg" en "betere gezondheidsprestaties". Zoals Civio heeft vernomen, werd de beslissing eenzijdig genomen, zonder overleg met de relevante specialisten. In februari verklaarde Osakidetza ook dat Quantus Skin de "validatiefases" had doorstaan en zich "in de integratiefase" bevond. In antwoord op vragen van Civio over de klinische werkzaamheid stelt het bedrijf nu dat het nog steeds wordt getest en dat het beslissingen zal nemen "op basis van de verkregen resultaten". Hij ontwijkt echter de vraag of hij wist dat de gepubliceerde klinische werkzaamheidsgegevens voor Quantus Skin (69,1% sensitiviteit en 80,2% specificiteit) onder de contractuele drempel van 85% lagen. Naast de gunning in Baskenland heeft Transmural Biotech slechts één andere overheidsopdracht, in Catalonië, voor een veel kleiner bedrag (€ 25.000) voor de certificering van algoritmen voor kunstmatige intelligentie in de radiologie.
Dit artikel is oorspronkelijk gepubliceerd op Civio , een onafhankelijke non-profit nieuwsredactie die diepgaand onderzoek doet naar publieke zaken. De volledige methodologie vindt u hier .
EL PAÍS