Onderzoek: 95% van de tests van medische AI-modellen weerspiegelt niet hun effectiviteit in de praktijk

Volgens de wetenschappers creëert deze aanpak een "illusie van effectiviteit" en een vals gevoel van de geschiktheid van AI voor de medische praktijk. De auteurs benadrukken dat echte klinische data veel moeilijker te analyseren zijn: ze bevatten vakjargon, onvolledige dossiers en significante verschillen tussen medische instellingen. Hierdoor blijken algoritmen die hoge prestaties leveren op synthetische tests vaak minder nauwkeurig in de praktijk.
Bovendien zijn de meeste beoordelingen gebaseerd op geautomatiseerde nauwkeurigheidsmaatstaven – BLEU, ROUGE, BERTScore en andere – die zijn ontwikkeld voor machinevertaling en tekstverwerking, maar die niet geschikt zijn voor medische contexten. De overeenkomst tussen geautomatiseerde en menselijke beoordelingen is minimaal: modellen die een hoge nauwkeurigheid aantonen volgens formele maatstaven, leveren in de praktijk vaak onjuiste of onvolledige antwoorden op.
Een ander probleem is dat zelfs het gebruik van gegevens uit echte medische dossiers geen nauwkeurige beoordeling van de modelprestaties garandeert. Veel tests, zoals MedNLI, worden ontwikkeld met behulp van echte medische dossiers, maar tijdens de voorbereiding worden de gegevens vaak vereenvoudigd en gaan belangrijke details verloren. Hierdoor kan het algoritme niet goed presteren omdat het de klinische tekst echt "begrijpt", maar omdat het de antwoorden raadt op basis van de kenmerken van de dataset.
Bovendien weerspiegelt het meest gebruikte testformat – multiple-choice-examens – de praktijk van artsen niet, waar beslissingen moeten worden genomen op basis van onvolledige en tegenstrijdige gegevens. In de praktijk presteren taalmodellen aanzienlijk slechter, zoals blijkt uit onderzoek. Zo testten wetenschappers uit Duitsland, het Verenigd Koninkrijk en de VS in 2024 de diagnostische nauwkeurigheid van AI-systemen op gegevens van 2400 patiënten met vier veelvoorkomende buikaandoeningen en ontdekten dat de nauwkeurigheid van de modellen slechts 13-68% bedroeg, terwijl artsen in 84-86% van de gevallen dezelfde pathologieën identificeerden. Algoritmen zijn nog niet in staat om de klinische redenering en besluitvormingsprocessen die kenmerkend zijn voor specialisten te reproduceren.
Onderzoekers stellen voor om over te stappen op nieuwe standaarden voor de evaluatie van medische AI – standaarden die clinici betrekken, de interactie tussen artsen en taalmodellen in de praktijk analyseren en testen hoe algoritmen de diagnostische kwaliteit, de workflowsnelheid en de cognitieve belasting van het personeel beïnvloeden. Ze benadrukken dat AI-systemen de komende jaren niet langer als zelfstandige hulpmiddelen zullen worden gebruikt, maar als ondersteunende technologieën voor routinematige professionele taken. Daarom moet de kwaliteit van hun evaluatie niet alleen rekening houden met de nauwkeurigheid van de antwoorden, maar ook met hun daadwerkelijke impact op de medische praktijk.
Volgens de auteurs kan alleen een uitgebreid, transparant en klinisch contextgevoelig verificatiesysteem objectief vaststellen in hoeverre AI de efficiëntie van de gezondheidszorg kan verbeteren en de risico's voor patiënten kan verminderen.
Eerder stelden onderzoekers van de Universiteit van Washington en de Universiteit van Michigan, samen met collega's uit China, voor om niet alleen patiëntgegevens, maar ook digitale sporen van de interacties van artsen met elektronische medische dossiers in algoritmen te integreren. Deze aanpak stelt modellen in staat om rekening te houden met de reële kenmerken van klinisch redeneren. De integratie van deze gegevens in een systeem voor vroegtijdige waarschuwing voor verslechterende omstandigheden verminderde de ziekenhuissterfte met 35,6%. Het in aanmerking nemen van de reële context, zoals bepleit door de auteurs van het artikel over de "illusie van effectiviteit", wordt daarom een belangrijk gebied voor de ontwikkeling van medische AI.
vademec