Muttermal oder Krebs? Der Algorithmus übersieht jedes dritte Melanom und übersieht Patienten mit dunkler Haut.

Zeit ist Geld. Besonders beim Melanom, dem gefährlichsten Hautkrebs, ist eine möglichst frühe Diagnose lebensrettend – mehr als bei fast jeder anderen Krebsart . In Spanien wird bis 2025 mit fast 9.400 Melanom-Fällen gerechnet . Der hochaggressive Tumor kann sich schnell ausbreiten und innerhalb weniger Monate Metastasen bilden. In diesem Fall ist die Prognose oft schlecht, sodass jeder Diagnosefehler tödlich sein kann.
Genau diese Dringlichkeit hat das Baskenland dazu veranlasst, in künstliche Intelligenz (KI) zu investieren. Der baskische Gesundheitsdienst Osakidetza arbeitet daran, dass seine öffentlichen Gesundheitszentren und Krankenhäuser Quantus Skin integrieren, einen Algorithmus zur Diagnose des Hautkrebsrisikos, einschließlich Melanomen. Theoretisch verspricht dies eine Vereinfachung des Prozesses: Hausärzte können von der Primärversorgung aus Bilder verdächtiger Läsionen an die dermatologische Abteilung des Krankenhauses senden, zusammen mit der vom Algorithmus automatisch berechneten Wahrscheinlichkeit, dass es sich um bösartige Läsionen handelt. Die Idee der baskischen Regierung ist, dass Quantus Skin, das derzeit getestet wird, dabei helfen soll, zu entscheiden, welche Patienten zuerst behandelt werden sollten.
Die Daten zeigen jedoch eine beunruhigende Realität. Transmural Biotech, das Unternehmen, das Quantus Skin vertreibt, führte eine erste Studie mit vielversprechenden Ergebnissen durch, die jedoch erhebliche Einschränkungen aufwies: Sie wurde vollständig online durchgeführt und nicht in einer wissenschaftlichen Zeitschrift veröffentlicht. Das bedeutet, dass sie nicht der in der Wissenschaft üblichen Qualitätskontrolle unterzogen wurde.
Später führten Dermatologen des Ramón y Cajal-Krankenhauses in Madrid und Professoren der Universität Complutense eine zweite Studie durch, die veröffentlicht wurde, um die klinische Wirksamkeit von Quantus Skin in der Praxis zu bewerten. Diese von Transmural Biotech finanzierte und unterstützte Arbeit zeigte schlechtere Ergebnisse: Der Algorithmus übersah jedes dritte Melanom. Seine Sensitivität liegt bei 69 %, was bedeutet, dass er 31 % der tatsächlichen Fälle dieser potenziell tödlichen Krebsart übersieht.
Auf die Frage von Civio nach der zweiten Studie antwortete Transmural Biotechs CEO David Fernández Rodríguez per E-Mail ausweichend: „Ich weiß im Moment nicht, um welche Studie es sich handelt.“ Nach einem kurzen Anruf änderte er seine Aussage: „Wir haben Tests durchgeführt“, um mögliche Implementierungsprobleme zu erkennen. Am Ende des Gesprächs räumte Fernández Rodríguez ein, dass Quantus Skin „nicht aufgehört hat zu wirken, sondern deutlich schlechter, aber wir mussten herausfinden, warum.“
Der CEO von Transmural Biotech führt die schlechteren Ergebnisse auf Mängel bei der Bildaufnahme zurück, die auf die Nichtbeachtung der Anweisungen von Quantus Skin zurückzuführen sind. Dies sei auch bei den Studien im Baskenland beobachtet worden. „Hausärzte sind nicht gut darin geschult, Bilder aufzunehmen“, sagt er, was die Notwendigkeit einer „Schulung der Ärzte“ unterstreiche. An der zweiten Studie waren jedoch Dermatologen beteiligt, die sich speziell auf das Fotografieren verdächtiger Läsionen für die spätere Diagnose spezialisiert haben. Laut Fernández Rodríguez verbesserte sich die Zuverlässigkeit, nachdem „die Bilder sorgfältig zugeschnitten“ wurden, da sie „nicht genau den Anweisungen folgten“.
Von unabhängigen Quellen kritisiert„Bei Hautkrebs ist eine Sensitivität von 70 % sehr gering. Wirklich sehr gering. Wenn Sie diesen Test jemandem geben, der ein Foto machen soll, um Ihnen zu sagen, ob es sich um ein Melanom handeln könnte, und er liegt in einem Drittel der Fälle falsch, ist das für die Hautkrebsvorsorge in der Primärversorgung nicht ausreichend; Sie müssen mehr verlangen“, erklärt Dr. Josep Malvehy Guilera , Leiter der Hautkrebseinheit am Hospital Clínic in Barcelona, gegenüber Civio. Für Dr. Rosa Taberner Ferrer , Dermatologin am Hospital Son Llàtzer auf Mallorca und Autorin des Fachblogs Dermapixel , „klingen 31 % falsch-negative Ergebnisse gelinde gesagt gefährlich. Als Vorsorgetest ist das ein Dauerbrenner.“
Der CEO von Transmural Biotech versucht jedoch, das Problem herunterzuspielen, indem er sich nur auf Daten konzentriert, die für sein Produkt sprechen, und die geringe Sensitivität von Quantus Skin verschweigt. Laut derselben Studie , die die klinische Wirksamkeit analysierte, weist das System zudem zwei Mängel auf: Seine Spezifität führt zu einer Falsch-Positiv-Rate von 19,8 %, d. h. es verwechselt jedes fünfte gutartige Muttermal mit einem Melanom. Das würde bedeuten, dass die Verwendung von Quantus Skin bei fast 20 % der behandelten Patienten zu unnötigen Überweisungen führen würde.
In der Studie argumentieren die Autoren – Dermatologen des Ramón y Cajal Krankenhauses in Madrid und Professoren der Universität Complutense Madrid –, dass eine hohe Spezifität (wenige falsch-positive Ergebnisse) von Quantus Skin auch auf Kosten einer geringen Sensitivität (mehr falsch-negative Ergebnisse) wünschenswert sei, da der Test nicht für die definitive Diagnose, sondern für das Screening eingesetzt wird, d. h. um Fälle aus der Primärversorgung herauszufiltern. Ihrer Hypothese zufolge könnte dies einer Überlastung der Facharztkonsultationen vorbeugen und Wartelisten sowie die damit verbundenen medizinischen Kosten reduzieren.
Die von Civio konsultierten Spezialisten hinterfragen die Strategie hinter dem Algorithmus. Obwohl es keinen idealen Standard für die Krebsdiagnose gibt – auch weil diese von der Aggressivität des jeweiligen Tumors abhängt –, ist das Ergebnis von Quantus Skin alles andere als akzeptabel. „Wenn sie fälschlicherweise ein Melanom in Läsionen diagnostizieren, die schnell wachsen und sogar zum Tod des Patienten führen können, muss ich sehr intolerant sein. Ich muss bereits Sensitivitätsraten von mindestens 92 %, 93 % und 94 % verlangen“, sagt Malvehy Guilera.
„Wenn das System für Screenings eingesetzt werden soll, sollte es eine extrem hohe Sensitivität aufweisen, die Spezifität jedoch etwas geringer ausfallen“, erklärt Taberner Ferrer. Anders ausgedrückt: Ein solcher Algorithmus sollte lieber auf Nummer sicher gehen: Besser einen kleinen Fehler machen und bei gesunden Menschen Fehlalarme auslösen, als einen echten Krebsfall zu übersehen.
Dunkle Haut, unsichere DiagnoseDie Probleme von Quantus Skin gehen über die geringe Sensitivität hinaus. Die Studie bewertete lediglich die klinische Wirksamkeit bei der Diagnose von Melanomen, analysierte jedoch nicht andere, häufigere, aber weniger aggressive Hautkrebsarten wie Basalzellkarzinom und Plattenepithelkarzinom, bei denen das Programm ebenfalls eingesetzt werden kann. Die Autoren untersuchten auch nicht, wie sich die Hautfarbe auf die Leistung des Algorithmus auswirkt, räumten jedoch ein, dass dies eine der Haupteinschränkungen ihrer Forschung darstellt.
Quantus Skin, basierend auf neuronalen Netzwerken, hat gelernt, Hautkrebs fast ausschließlich bei weißen Menschen zu erkennen. Der Algorithmus wurde zunächst mit etwas mehr als 56.000 Bildern der International Skin Imaging Collaboration (ISIC) gefüttert, einem öffentlichen Archiv für medizinische Fotos, die hauptsächlich von westlichen Krankenhäusern gesammelt werden und von denen die meisten Patienten mit heller Haut stammen. Anschließend wurde Quantus Skin mit Bildern von 513 Patienten des Ramón y Cajal Krankenhauses in Madrid getestet – allesamt weiße Menschen.
Der Datensatz, der Quantus Skin speist, enthält Bilder von „kaukasischen Männern und Frauen“, bestätigt der Generaldirektor von Transmural Biotech. „Ich möchte nicht auf die Frage ethnischer Minderheiten und dergleichen eingehen, da das Tool im Baskenland, von Osakidetza (dem baskischen Nationalen Institut für Statistik und Volkszählungen), verwendet wird. Was ich zur Verfügung stelle, ist ein Tool mit Einschränkungen“, sagt Fernández Rodríguez. Trotz des fehlenden Trainings für dunklere Hauttöne gibt die baskische Regierung an, dass es nicht notwendig sei, Maßnahmen zur „Förderung von Gleichstellung und Nichtdiskriminierung“ zu ergreifen, wie aus der Quantus Skin-Datei hervorgeht, die im Katalog der Algorithmen und künstlichen Intelligenzsysteme des Baskenlandes enthalten ist. Da die neuronalen Netze jedoch fast ausschließlich mit Bildern von Weißen trainiert wurden, dürften sie bei dunkleren Hauttönen, wie beispielsweise denen der Roma-Ethnie oder Migranten aus Lateinamerika und Afrika, häufiger versagen.
„Algorithmen können sehr leicht scheitern“, sagte Adewole Adamson , Professor für Dermatologie an der University of Texas, gegenüber Civio. Er warnte bereits 2018 vor der Diskriminierung, die künstliche Intelligenz mit sich bringen könnte, wenn sie nicht inklusiv und vielfältig entwickelt würde – ein Problem, das über Quantus Skin hinausgeht.
Ihre Vorhersagen haben sich bestätigt. In der Dermatologie sinkt die „diagnostische Zuverlässigkeit bei dunkleren Hauttönen“, wenn Algorithmen hauptsächlich mit Bildern weißer Patienten gefüttert werden, sagt Taberner Ferrer. Der Skin Image Search -Algorithmus des schwedischen Unternehmens First Derm, der hauptsächlich mit Fotos weißer Haut trainiert wurde, verzeichnete bei Tests an Menschen mit dunklerer Haut einen Genauigkeitsverlust von 70 % auf 17 %. Neuere Forschungen bestätigen, dass diese Art von Algorithmen bei Schwarzen schlechter abschneidet – nicht aufgrund technischer Probleme, sondern aufgrund mangelnder Diversität der Trainingsdaten.
Obwohl Melanome eine bei Weißen deutlich häufigere Krebsart sind, ist die Gesamtüberlebensrate bei Menschen mit dunklerer Hautfarbe deutlich niedriger . Der amerikanische Ingenieur Avery Smith kennt diese Zahlen nur zu gut. Bei seiner Partnerin Latoya Smith wurde nur anderthalb Jahre nach ihrer Hochzeit ein Melanom diagnostiziert. „Ich war wirklich überrascht von den Überlebensraten nach ethnischer Zugehörigkeit. Latoya, eine Afroamerikanerin, war ganz unten. Das wusste ich erst, als es mich wie ein Schlag traf. Es war furchtbar“, erzählt er Civio. Einige Zeit nach der Diagnose, Ende 2011, starb Latoya.
Seitdem setzt sich Avery Smith für eine inklusivere Dermatologie ein und dafür, dass Algorithmen Ungleichheiten nicht verstärken . Um die Auswirkungen zu betonen, die sie insbesondere auf gefährdete Gruppen haben können, lehnt Smith es ab, künstliche Intelligenz als „Werkzeug“ zu bezeichnen, als wäre sie lediglich eine „Schere“: „Es ist ein Marketingbegriff, ein Weg, es den Menschen verständlich zu machen. Aber es ist viel mehr.“
Auch die Rechtsexpertin Anabel K. Arias , Sprecherin des Verbraucher- und Anwenderverbands CECU , spricht von diesen Auswirkungen: „Wenn man überlegt, es zur Frühdiagnose einzusetzen, ist möglicherweise ein Teil der Bevölkerung unterrepräsentiert. In diesem Fall könnte die Diagnose falsch sein und Auswirkungen auf die Gesundheit der Person haben. Man könnte sogar von Schäden ausgehen.“
Patienten, die für die Augen eines Algorithmus unsichtbar sind„Menschen neigen dazu, künstlicher Intelligenz sehr zu vertrauen. Wir schreiben ihr Objektivität zu, die nicht der Realität entspricht“, sagt Helena Matute Greño , Professorin für experimentelle Psychologie an der Universität Deusto. Jede KI nutzt die erhaltenen Informationen, um Entscheidungen zu treffen. Sind die Eingabedaten nicht gut oder unvollständig, kann sie scheitern. Bei systematischen Fehlern begeht der Algorithmus Fehler, die wir als Vorurteile bezeichnen. Und wenn diese eine bestimmte Gruppe von Menschen stärker betreffen – aufgrund ihrer Herkunft, Hautfarbe, ihres Geschlechts oder Alters –, sprechen wir von diskriminierenden Vorurteilen.
Eine im Journal of Clinical Epidemiology veröffentlichte Übersichtsarbeit zeigte, dass nur 12 % der Studien zu KI in der Medizin analysierten, ob diese voreingenommen ist. Und wenn doch, war die häufigste Voreingenommenheit rassistischer Natur, gefolgt von Geschlecht und Alter. Die überwiegende Mehrheit betraf dabei Gruppen, die in der Vergangenheit diskriminiert wurden. Diese Fehler können auftreten, wenn die Trainingsdaten nicht ausreichend vielfältig und ausgewogen sind: Wenn Algorithmen nur von einem Teil der Bevölkerung lernen, schneiden sie bei anderen Gruppen oder Minderheitengruppen schlechter ab.
Fehler beschränken sich nicht nur auf die Hautfarbe. Kommerzielle Gesichtserkennungstechnologien versagen bei der Klassifizierung schwarzer Frauen viel häufiger , weil sie in der Vergangenheit mit Bildern weißer Männer trainiert wurden. Ähnliches passiert mit Algorithmen, die Röntgenaufnahmen der Brust analysieren oder Herz-Kreislauf-Erkrankungen vorhersagen: Ihre Diagnoseleistung ist bei Frauen schlechter, wenn die Trainingsdaten unausgewogen sind . Gleichzeitig ist einer der am häufigsten verwendeten Datensätze zur Vorhersage von Lebererkrankungen völlig verzerrt – 75 % der Daten stammen von Männern –, sodass die ihn verwendenden Algorithmen bei Frauen viel häufiger versagen . In Großbritannien diskriminierte der Algorithmus zur Priorisierung von Transplantationen jüngere Menschen . Der Grund? Er war mit begrenzten Daten trainiert worden, die nur das Überleben in den nächsten fünf Jahren berücksichtigten, nicht aber das gesamte Leben, das Patienten mit einem neuen Organ noch gewinnen könnten.
„Die für das Training verwendeten Daten müssen die gesamte Bevölkerung repräsentieren, in der sie später eingesetzt werden“, erklärt Dr. Nuria Ribelles Entrena , Sprecherin der Spanischen Gesellschaft für Medizinische Onkologie ( SEOM ) und Onkologin am Universitätsklinikum Virgen de la Victoria in Málaga. „Wenn ich nur mit einer bestimmten Patientengruppe trainiere, ist das Training bei dieser Gruppe sehr effektiv, bei einer anderen jedoch nicht“, fügt sie hinzu.
Vermeidung von Vorurteilen, ein HindernislaufEs gibt eine Lösung zur Vermeidung von Verzerrungen: „Der Trainingsdatensatz muss so breit wie möglich sein“, erklärt López Rueda. Doch das lässt sich nicht immer überprüfen. Bisher veröffentlichen die meisten in Spanien implementierten künstlichen Intelligenzsysteme, die medizinische Bilder verwenden, in der Regel keine Trainingsdaten. Dies ist der Fall bei zwei dermatologischen Geräten – deren Namen unbekannt sind –, die zuerst im Gesundheitsbereich Caudal aktiviert und dann auf das gesamte Fürstentum Asturien ausgeweitet werden. Dasselbe gilt für die kommerzielle Anwendung ClinicGram zur Erkennung diabetischer Fußgeschwüre, die am Universitätsklinikum Vic (Barcelona) implementiert wurde, oder für die verschiedenen privaten Radiologiesysteme wie BoneView und ChestView oder Lunit, die in einigen Krankenhäusern in der Autonomen Gemeinschaft Madrid, dem Fürstentum Asturien und der Valencianischen Gemeinschaft in Betrieb sind.
Ein weiteres Hindernis bei der Zugänglichkeit von Datensätzen besteht darin, dass sie keine Metadaten wie Herkunft, Geschlecht, Alter oder Hauttyp enthalten, die eine Überprüfung ihrer Vollständigkeit und Ausgewogenheit ermöglichen würden. In der Dermatologie enthalten die meisten öffentlichen Datensätze typischerweise keine Angaben zur Herkunft oder zum Hautton der Patienten. Wo diese Informationen enthalten sind, zeigen Studien immer wieder , dass Schwarze deutlich unterrepräsentiert sind. „Das Problembewusstsein wächst, und Algorithmenentwickler haben versucht, diese Defizite zu beheben. Es bleibt jedoch noch viel zu tun“, sagt Professor Adamson.
Im Jahr 2022 vergab Osakidetza einen Auftrag im Wert von knapp 1,6 Millionen Euro an Transmural Biotech zur Implementierung von „Künstlichen Intelligenz-Algorithmen in der medizinischen Bildgebung“, die eine Sensitivität und Spezifität von „mindestens“ 85 % erforderten. Das Unternehmen, ein Spin-off der Universität Barcelona und des Hospital Clínic, gehört zur privaten Versicherungsgesellschaft Asisa. Laut Osakidetza wurden trotz der Tatsache, dass die Spezifikationen mehrere Algorithmen umfassten, letztendlich nur zwei ausgewählt, darunter Quantus Skin, aufgrund seiner „größeren Auswirkungen auf die Gesundheitsversorgung“ und „besseren Gesundheitsleistung“. Wie Civio erfahren hat, wurde die Entscheidung einseitig und ohne Rücksprache mit den zuständigen Spezialisten getroffen. Im Februar erklärte Osakidetza zudem, dass Quantus Skin „die Validierungsphasen“ durchlaufen habe und sich „in der Integrationsphase“ befinde. Auf Civios Fragen zur klinischen Wirksamkeit erklärt das Unternehmen nun, dass es weiterhin getestet werde und Entscheidungen „auf Grundlage der erzielten Ergebnisse“ getroffen würden. Er vermeidet jedoch die Antwort auf die Frage, ob ihm bekannt war, dass die veröffentlichten klinischen Wirksamkeitsdaten für Quantus Skin (69,1 % Sensitivität und 80,2 % Spezifität) unter dem im Vertrag geforderten Schwellenwert von 85 % lagen. Neben dem Auftrag im Baskenland verfügt Transmural Biotech nur über einen weiteren öffentlichen Auftrag in Katalonien über einen deutlich geringeren Betrag (25.000 Euro) zur Zertifizierung von Algorithmen der künstlichen Intelligenz in der Radiologie.
Dieser Artikel wurde ursprünglich auf Civio veröffentlicht , einer unabhängigen, gemeinnützigen Nachrichtenredaktion, die tiefgreifende Recherchen zu öffentlichen Angelegenheiten durchführt. Die vollständige Methodik finden Sie dort .
EL PAÍS