Znamię czy rak? Algorytm, który pomija jeden na trzy czerniaki i pomija pacjentów o ciemnej karnacji.

Czas to pieniądz. Zwłaszcza jeśli chodzi o czerniaka, najniebezpieczniejszego raka skóry: zdiagnozowanie tego guza tak wcześnie, jak to możliwe, ma kluczowe znaczenie dla ratowania życia, bardziej niż w przypadku prawie każdego innego nowotworu . W Hiszpanii szacuje się , że do 2025 r. będzie prawie 9400 przypadków czerniaka, wysoce agresywnego nowotworu, który może szybko się rozprzestrzeniać i powodować przerzuty w ciągu zaledwie kilku miesięcy. Kiedy tak się dzieje, rokowanie jest często niepomyślne, więc każdy błąd w wykryciu może być śmiertelny.
Właśnie ta pilna potrzeba skłoniła Kraj Basków do zainwestowania w sztuczną inteligencję (AI). Baskijska Służba Zdrowia, Osakidetza, pracuje nad tym, aby jej publiczne centra zdrowia i szpitale włączyły Quantus Skin , algorytm zaprojektowany do diagnozowania ryzyka raka skóry, w tym czerniaka. Teoretycznie obiecuje usprawnić proces: z podstawowej opieki zdrowotnej lekarze rodzinni będą mogli przesyłać obrazy podejrzanych zmian do oddziału dermatologii szpitala, wraz z prawdopodobieństwem, że są złośliwe, automatycznie obliczanym przez algorytm. Pomysł rządu Basków polega na tym, że Quantus Skin, który jest obecnie testowany, pomoże zdecydować, którzy pacjenci powinni zostać poddani leczeniu w pierwszej kolejności.
Jednak dane pokazują niepokojącą rzeczywistość. Transmural Biotech, firma, która sprzedaje Quantus Skin, przeprowadziła wstępne badanie z obiecującymi wynikami , ale miało ono znaczące ograniczenia: zostało przeprowadzone całkowicie online i nie zostało opublikowane w żadnym czasopiśmie naukowym, co oznacza, że nie przeszło zwykłej kontroli jakości wymaganej w nauce.
Później dermatolodzy ze szpitala Ramón y Cajal w Madrycie i profesorowie z Uniwersytetu Complutense przeprowadzili drugie badanie, które zostało opublikowane , aby ocenić rzeczywistą skuteczność kliniczną Quantus Skin. Ta praca, która została sfinansowana i wsparta przez Transmural Biotech, wykazała gorsze wyniki: algorytm pominął jeden na trzy czerniaki. Jego czułość wynosi 69%, co oznacza, że pomija 31% rzeczywistych przypadków tego potencjalnie śmiertelnego raka.
Zapytany przez Civio o drugie badanie, CEO Transmural Biotech, David Fernández Rodríguez, odpowiedział wymijająco w e-mailu: „Nie wiem, które to teraz”. Po naciśnięciu telefonu zmienił swoją wersję wydarzeń: „Testowaliśmy”, aby wykryć potencjalne problemy z wdrożeniem. A pod koniec rozmowy Fernández Rodríguez przyznał, że Quantus Skin „nie przestał działać, działał znacznie gorzej, ale musieliśmy dowiedzieć się, dlaczego”.
Dyrektor generalny Transmural Biotech przypisuje te gorsze wyniki niedociągnięciom w przechwytywaniu obrazu z powodu nieprzestrzegania instrukcji Quantus Skin. To coś, co zaobserwowali również w próbach w Kraju Basków. „Lekarze podstawowej opieki zdrowotnej nie są dobrze przeszkoleni w robieniu zdjęć”, mówi, co podkreśla potrzebę „szkolenia lekarzy”. Jednak drugie badanie obejmowało dermatologów, którzy specjalizują się w fotografowaniu podejrzanych zmian w celu późniejszej diagnozy. Według Fernándeza Rodrígueza niezawodność poprawiła się po „starannym przycięciu obrazów”, ponieważ „nie przestrzegano dokładnie” instrukcji.
Krytykowane przez niezależne źródła„W przypadku raka skóry czułość na poziomie 70% jest bardzo niska. To bardzo niska wartość. Jeśli dasz to komuś, żeby zrobił zdjęcie i powiedział, czy to może być czerniak, a on popełni jeden na trzy błędy, to nie jest to wystarczające do badania przesiewowego raka skóry w warunkach podstawowej opieki zdrowotnej; musisz poprosić o więcej” – wyjaśnia Civio dr Josep Malvehy Guilera , dyrektor Oddziału Raka Skóry w Szpitalu Klinicznym w Barcelonie. Dla dr Rosy Taberner Ferrer , dermatologa w Szpitalu Son Llàtzer na Majorce i autorki specjalistycznego bloga Dermapixel , „31% fałszywie ujemnych wyników brzmi co najmniej niebezpiecznie. Jako test przesiewowy to kasztan”.
Jednak CEO Transmural Biotech próbuje zminimalizować problem, skupiając się wyłącznie na danych, które przemawiają za jego produktem, unikając wspominania o niskiej wrażliwości Quantus Skin. Według tego samego badania , które analizowało jego skuteczność kliniczną, system zawodzi również na dwóch płaszczyznach: jego specyficzność skutkuje 19,8% fałszywie dodatnim wskaźnikiem, co oznacza, że myli jeden na pięć łagodnych znamion z czerniakiem. Oznaczałoby to, że stosowanie Quantus Skin prowadziłoby do niepotrzebnych skierowań u prawie 20% leczonych pacjentów.
W badaniu autorzy — dermatolodzy ze szpitala Ramón y Cajal w Madrycie i profesorowie z Uniwersytetu Complutense w Madrycie — twierdzą, że lepiej, aby Quantus Skin miał wysoką swoistość (niewiele wyników fałszywie dodatnich), nawet kosztem niskiej czułości (więcej wyników fałszywie ujemnych), ponieważ nie będzie używany do ostatecznej diagnozy, ale raczej do badań przesiewowych, czyli do pomocy w filtrowaniu przypadków z podstawowej opieki zdrowotnej. Zgodnie z ich hipotezą, mogłoby to zapobiec nasyceniu konsultacji specjalistycznych i skrócić listy oczekujących oraz związane z tym wydatki medyczne.
Specjaliści, z którymi konsultowało się Civio, kwestionują strategię stojącą za algorytmem. Chociaż nie ma idealnego standardu diagnostyki raka — częściowo dlatego, że zależy on od agresywności każdego guza — to, co osiągnęło Quantus Skin, jest dalekie od akceptowalnego. „Jeśli popełnią błąd, diagnozując czerniaka w zmianach, które potencjalnie mogą szybko rosnąć, a nawet spowodować śmierć pacjenta, muszę być bardzo nietolerancyjny. Już teraz muszę prosić o czułość na poziomie 92%, 93%, 94% jako minimum” — mówi Malvehy Guilera.
„Jeśli zamierzają używać go do badań przesiewowych, system powinien mieć niezwykle wysoką czułość kosztem nieco niższej swoistości” – wyjaśnia Taberner Ferrer. Innymi słowy, lepiej, aby algorytm taki jak ten błądził po stronie ostrożności: lepiej trochę pomylić się, generując fałszywe alarmy u zdrowych osób, niż przegapić prawdziwy przypadek raka.
Ciemna skóra, niepewna diagnozaProblemy z Quantus Skin wykraczają poza jego niską czułość. Badanie oceniało jedynie jego skuteczność kliniczną w diagnozowaniu czerniaka, ale nie analizowało innych, bardziej powszechnych, ale mniej agresywnych typów raka skóry, takich jak rak podstawnokomórkowy i rak płaskonabłonkowy, w których program również może być stosowany. Autorzy nie badali również, w jaki sposób kolor skóry wpływa na wydajność algorytmu, chociaż przyznają , że jest to jedno z głównych ograniczeń ich badań.
Quantus Skin, oparty na sieciach neuronowych, nauczył się rozpoznawać raka skóry niemal wyłącznie u osób białych. Algorytm został najpierw wczytany do ponad 56 000 obrazów z International Skin Imaging Collaboration (ISIC) , publicznego repozytorium zdjęć medycznych zebranych głównie przez zachodnie szpitale , gdzie większość z nich dotyczy pacjentów o jasnej karnacji. Następnie Quantus Skin został przetestowany przy użyciu obrazów 513 pacjentów ze szpitala Ramón y Cajal w Madrycie, wszyscy byli biali.
Zestaw danych użyty do zasilania Quantus Skin zawiera obrazy „kaukaskich mężczyzn i kobiet”, potwierdza dyrektor generalny Transmural Biotech. „Nie chcę poruszać kwestii mniejszości etnicznych i tego wszystkiego, ponieważ narzędzie jest używane przez Kraj Basków, przez Osakidetza (Baskijski Narodowy Instytut Statystyki i Spisów Ludności). Udostępniam narzędzie z jego ograniczeniami”, mówi Fernández Rodríguez. Pomimo braku szkoleń dotyczących ciemniejszych odcieni skóry, rząd baskijski wskazuje, że nie jest konieczne „wdrażanie” żadnych środków „promujących równość i niedyskryminację”, zgodnie z plikiem Quantus Skin zawartym w katalogu algorytmów i systemów sztucznej inteligencji Kraju Basków. Jednak ponieważ sieci neuronowe były trenowane niemal wyłącznie na obrazach białych ludzi, prawdopodobnie częściej będą zawodzić w przypadku ciemniejszych odcieni skóry, takich jak osoby pochodzenia romskiego lub migranci z Ameryki Łacińskiej i Afryki.
„Bardzo łatwo jest sprawić, by algorytmy zawiodły” – powiedział Civio Adewole Adamson , profesor dermatologii na University of Texas. Ostrzegł w 2018 r . przed dyskryminacją, do której może doprowadzić sztuczna inteligencja, jeśli nie zostanie opracowana w sposób inkluzywny i różnorodny, a to problem wykraczający poza Quantus Skin.
Ich przewidywania się potwierdziły. W dermatologii, gdy algorytmy są karmione głównie zdjęciami białych pacjentów, „wiarygodność diagnostyczna w przypadku ciemniejszych odcieni skóry” spada, mówi Taberner Ferrer. Algorytm Skin Image Search szwedzkiej firmy First Derm, trenowany głównie na zdjęciach białej skóry, odnotował spadek dokładności z 70% do 17%, gdy testowano go na osobach o ciemniejszej karnacji. Nowsze badania potwierdziły, że tego typu algorytmy działają gorzej u osób czarnoskórych, nie z powodu problemów technicznych, ale z powodu braku różnorodności danych treningowych.
Chociaż czerniak jest nowotworem znacznie powszechniejszym u osób białych, osoby o ciemniejszej karnacji mają znacznie niższy ogólny wskaźnik przeżywalności. Amerykański inżynier Avery Smith jest dobrze świadomy tych liczb. Jego partnerka, Latoya Smith, otrzymała diagnozę czerniaka zaledwie półtora roku po ślubie. „Byłem naprawdę zaskoczony wskaźnikami przeżywalności według pochodzenia etnicznego. Latoya, będąc Afroamerykanką, była na samym dole. Nie wiedziałem o tym, dopóki nie uderzyło mnie to tak, jakby potrącił mnie autobus. To było przerażające” — mówi Civio. Jakiś czas po diagnozie, pod koniec 2011 roku, Latoya zmarła.
Od tego czasu Avery Smith pracuje nad osiągnięciem bardziej inkluzywnej dermatologii i nad zapewnieniem, że algorytmy nie będą wzmacniać nierówności . Aby podkreślić „wpływ”, jaki mogą mieć, zwłaszcza na grupy wrażliwe, Smith odrzuca nazywanie sztucznej inteligencji „narzędziem”, jakby była po prostu „nożyczkami”: „To termin marketingowy, sposób, aby ludzie to zrozumieli. Ale to coś znacznie więcej”.
Ekspertka prawna Anabel K. Arias , rzeczniczka Federation of Consumers and Users ( CECU ), również mówi o tych efektach: „Rozważając użycie go w celu wczesnej diagnozy, może być część populacji, która jest niedoreprezentowana. W takim przypadku diagnoza może być błędna i mieć wpływ na zdrowie osoby. Można nawet rozważyć szkodę”.
Pacjenci niewidoczni dla oczu algorytmu„Ludzie mają tendencję do dużego zaufania do sztucznej inteligencji, przypisujemy jej cechy obiektywizmu, które nie są prawdziwe” — mówi Helena Matute Greño , profesor psychologii eksperymentalnej na Uniwersytecie Deusto. Każda sztuczna inteligencja wykorzystuje otrzymywane informacje do podejmowania decyzji. Jeśli te dane wejściowe nie są dobre lub niekompletne, może zawieść. Kiedy popełnia błędy systematyczne, algorytm popełnia błędy, które nazywamy stronniczością. A jeśli dotyczą one bardziej określonej grupy ludzi — ze względu na ich pochodzenie, kolor skóry, płeć lub wiek — mówimy o uprzedzeniach dyskryminacyjnych.
Przegląd opublikowany w Journal of Clinical Epidemiology wykazał, że tylko 12% badań nad sztuczną inteligencją w medycynie analizowało, czy jest ona stronnicza. A jeśli tak, to najczęściej występującym uprzedzeniem było uprzedzenie rasowe, a następnie płeć i wiek, przy czym zdecydowana większość dotyczyła grup, które historycznie cierpiały z powodu dyskryminacji. Błędy te mogą wystąpić, jeśli dane szkoleniowe nie są wystarczająco zróżnicowane i zrównoważone : jeśli algorytmy uczą się tylko od części populacji, działają gorzej w innych grupach lub grupach mniejszościowych.
Błędy nie ograniczają się tylko do koloru skóry. Komercyjne technologie rozpoznawania twarzy zawodzą znacznie częściej przy klasyfikowaniu czarnoskórych kobiet, ponieważ historycznie były trenowane na obrazach białych mężczyzn. Podobnie dzieje się z algorytmami analizującymi zdjęcia rentgenowskie klatki piersiowej lub przewidującymi choroby układu krążenia, których skuteczność diagnostyczna jest gorsza u kobiet , jeśli dane treningowe są niezrównoważone . Tymczasem jeden z najczęściej używanych zestawów danych do przewidywania chorób wątroby jest całkowicie stronniczy — 75% danych dotyczy mężczyzn — więc algorytmy, które go używają , zawodzą znacznie częściej w przypadku kobiet. W Wielkiej Brytanii algorytm ustalania priorytetów przeszczepów dyskryminował młodsze osoby . Powód? Został wytrenowany na ograniczonych danych, które uwzględniały tylko przeżycie w ciągu najbliższych pięciu lat , a nie całe życie, jakie mogliby zyskać pacjenci, którzy otrzymali nowy narząd.
„Dane wykorzystywane do szkolenia muszą reprezentować całą populację, w której będą później wykorzystywane” – wyjaśnia dr Nuria Ribelles Entrena , rzeczniczka Hiszpańskiego Towarzystwa Onkologii Medycznej ( SEOM ) i onkolog w Szpitalu Uniwersyteckim Virgen de la Victoria w Maladze. „Jeśli będę szkolić tylko określoną grupę pacjentów, będzie to bardzo skuteczne w tej grupie, ale nie w innej” – dodaje.
Unikanie uprzedzeń, tor przeszkódRozwiązaniem pozwalającym uniknąć stronniczości jest: „Zestaw treningowy musi być tak szeroki, jak to możliwe” — wyjaśnia López Rueda. Jednak nie zawsze można to zweryfikować. Jak dotąd większość systemów sztucznej inteligencji wdrożonych w Hiszpanii, które wykorzystują obrazy medyczne, zazwyczaj nie publikuje danych treningowych. Tak jest w przypadku dwóch urządzeń dermatologicznych — których nazwy są nieznane — które zostaną najpierw aktywowane w obszarze zdrowia Caudal, a następnie rozszerzone na całe Księstwo Asturii. Tak jest również w przypadku komercyjnej aplikacji ClinicGram , służącej do wykrywania owrzodzeń stopy cukrzycowej, wdrożonej w Szpitalu Uniwersyteckim Vic (Barcelona); lub w przypadku różnych prywatnych systemów radiologicznych, takich jak BoneView i ChestView lub Lunit, które działają w niektórych szpitalach we Wspólnocie Madrytu, Księstwie Asturii i Wspólnocie Walenckiej.
Gdy zestawy danych są dostępne, kolejną przeszkodą jest to, że nie zawierają metadanych, takich jak pochodzenie, płeć, wiek lub rodzaj skóry, które pozwoliłyby nam sprawdzić, czy są one inkluzywne i zrównoważone. W dermatologii większość publicznych zestawów danych zazwyczaj nie opisuje pochodzenia pacjentów ani odcienia skóry. Tam, gdzie te informacje są zawarte, badania konsekwentnie pokazują, że osoby czarnoskóre są znacznie niedoreprezentowane . „Świadomość problemu rośnie, a twórcy algorytmów próbowali rozwiązać te niedociągnięcia. Jednak nadal jest praca do wykonania” — mówi profesor Adamson.
W 2022 roku Osakidetza przyznał Transmural Biotech kontrakt o wartości prawie 1,6 mln euro na wdrożenie „algorytmów sztucznej inteligencji w obrazowaniu medycznym”, wymagających czułości i swoistości „przynajmniej” 85%. Firma, będąca spółką wydzieloną Uniwersytetu w Barcelonie i Hospital Clínic, należy do prywatnej firmy ubezpieczeniowej Asisa. Według Osakidetzy, pomimo faktu, że specyfikacje obejmowały kilka algorytmów, ostatecznie wybrano tylko dwa, w tym Quantus Skin, ze względu na „większy wpływ na opiekę zdrowotną” i „większą wydajność zdrowotną”. Jak dowiedziało się Civio, decyzja została podjęta jednostronnie, bez konsultacji z odpowiednimi specjalistami. W lutym Osakidetza oświadczył również, że Quantus Skin przeszedł „fazy walidacji” i jest „w fazie integracji”. W odpowiedzi na pytania Civio dotyczące jego skuteczności klinicznej, oświadcza teraz, że jest on nadal testowany i że podejmie decyzje „na podstawie uzyskanych wyników”. Unika jednak odpowiedzi na pytanie, czy wiedział, że opublikowane dane dotyczące skuteczności klinicznej Quantus Skin (czułość 69,1% i swoistość 80,2%) były poniżej progu 85% wymaganego przez kontrakt. Oprócz kontraktu w Kraju Basków Transmural Biotech ma tylko jeden inny kontrakt publiczny, w Katalonii, na znacznie mniejszą kwotę (25 000 EUR) na certyfikację algorytmów sztucznej inteligencji w radiologii.
Ten artykuł został pierwotnie opublikowany w Civio , niezależnej non-profitowej redakcji, która prowadzi dogłębne badania nad sprawami publicznymi. Pełną metodologię można znaleźć tam .
EL PAÍS