Selecione o idioma

Portuguese

Down Icon

Selecione o país

Spain

Down Icon

Pinta ou câncer? O algoritmo que não detecta um em cada três melanomas e ignora pacientes com pele escura.

Pinta ou câncer? O algoritmo que não detecta um em cada três melanomas e ignora pacientes com pele escura.

Tempo é dinheiro. Principalmente quando se trata de melanoma, o câncer de pele mais perigoso: diagnosticar esse tumor o mais cedo possível é crucial para salvar vidas, mais do que para quase qualquer outro tipo de câncer . Na Espanha, estima-se que até 2025 haverá quase 9.400 casos de melanoma, um tumor altamente agressivo que pode se espalhar rapidamente e causar metástase em poucos meses. Quando isso ocorre, o prognóstico costuma ser ruim, então qualquer erro na detecção pode ser fatal.

Justamente essa urgência levou o País Basco a investir em inteligência artificial (IA). O Serviço Basco de Saúde, Osakidetza, está trabalhando para garantir que seus centros de saúde pública e hospitais incorporem o Quantus Skin , um algoritmo projetado para diagnosticar o risco de câncer de pele, incluindo melanoma. Em teoria, ele promete agilizar o processo: a partir da atenção primária, os médicos de família poderão enviar imagens de lesões suspeitas para o departamento de dermatologia do hospital, juntamente com a probabilidade de que sejam malignas, calculada automaticamente pelo algoritmo. A ideia do Governo Basco é que o Quantus Skin, atualmente em teste, ajude a decidir quais pacientes devem ser tratados primeiro.

No entanto, os dados mostram uma realidade preocupante. A Transmural Biotech, empresa que comercializa o Quantus Skin, conduziu um estudo inicial com resultados promissores , mas com limitações significativas: foi realizado inteiramente online e não foi publicado em nenhum periódico acadêmico, o que significa que não passou pelo controle de qualidade usualmente exigido na ciência.

Posteriormente, dermatologistas do Hospital Ramón y Cajal, em Madri, e professores da Universidade Complutense realizaram um segundo estudo, publicado em [data ausente] , para avaliar a eficácia clínica do Quantus Skin na prática. Este trabalho, financiado e apoiado pela Transmural Biotech, apresentou resultados piores: o algoritmo não detectou um em cada três melanomas. Sua sensibilidade é de 69%, o que significa que não detecta 31% dos casos reais desse câncer potencialmente letal.

Questionado pela Civio sobre o segundo estudo, o CEO da Transmural Biotech, David Fernández Rodríguez, respondeu evasivamente por e-mail: "Não sei qual é agora". Após desligar o telefone, ele mudou de assunto: "O que estávamos fazendo era testar" para detectar potenciais problemas de implementação. E, ao final da ligação, Fernández Rodríguez reconheceu que o Quantus Skin "não parou de funcionar, funcionou muito pior, mas precisávamos descobrir o porquê".

O CEO da Transmural Biotech atribui esses resultados mais fracos a deficiências na captura de imagens devido à falha em seguir as instruções da Quantus Skin. Isso também foi observado nos testes do País Basco. "Os médicos da atenção primária não são bem treinados para capturar imagens", afirma, o que destaca a necessidade de "treinar os médicos". No entanto, o segundo estudo envolveu dermatologistas especializados especificamente em fotografar lesões suspeitas para diagnóstico posterior. Segundo Fernández Rodríguez, a confiabilidade melhorou depois que "as imagens foram cuidadosamente cortadas", porque "não estavam seguindo exatamente" as instruções.

Criticado por fontes independentes

“Para câncer de pele, uma sensibilidade de 70% é muito ruim. É muito ruim. Se você der isso a alguém para tirar uma foto e dizer se pode ser melanoma e eles errarem um em cada três, não é adequado para o rastreamento de câncer de pele em um ambiente de atenção primária; você tem que pedir mais”, explica à Civio o Dr. Josep Malvehy Guilera , diretor da Unidade de Câncer de Pele do Hospital Clínic de Barcelona. Para a Dra. Rosa Taberner Ferrer , dermatologista do Hospital Son Llàtzer em Maiorca e autora do blog especializado Dermapixel , “31% de falsos negativos parece perigoso, para dizer o mínimo. Como teste de rastreamento, é um problema.”

No entanto, o CEO da Transmural Biotech tenta minimizar o problema concentrando-se apenas em dados que favorecem seu produto, evitando mencionar a baixa sensibilidade do Quantus Skin. De acordo com o mesmo estudo que analisou sua eficácia clínica, o sistema também falha em dois aspectos: sua especificidade resulta em uma taxa de falsos positivos de 19,8%, o que significa que ele confunde uma em cada cinco pintas benignas com melanoma. Isso significa que o uso do Quantus Skin levaria a encaminhamentos desnecessários para quase 20% dos pacientes tratados.

No estudo , os autores — dermatologistas do Hospital Ramón y Cajal, em Madri, e professores da Universidade Complutense de Madri — argumentam que é preferível que o Quantus Skin tenha alta especificidade (poucos falsos positivos), mesmo ao custo de baixa sensibilidade (mais falsos negativos), já que não será usado para diagnóstico definitivo, mas sim para triagem, ou seja, para ajudar a filtrar casos da atenção primária. De acordo com a hipótese deles, isso poderia evitar a saturação de consultas especializadas e reduzir as listas de espera e as despesas médicas associadas.

Os especialistas consultados pela Civio questionam a estratégia por trás do algoritmo. Embora não exista um padrão ideal para o diagnóstico de câncer — em parte porque depende da agressividade de cada tumor —, o que a Quantus Skin alcançou está longe de ser aceitável. "Se eles erram ao diagnosticar melanoma em lesões com risco potencial de crescimento rápido e até mesmo de morte do paciente, tenho que ser muito intolerante. Já preciso pedir sensibilidades de 92%, 93%, 94%, no mínimo", diz Malvehy Guilera.

"Se pretendem usá-lo para triagem, o sistema deve ter sensibilidade extremamente alta, em detrimento de uma especificidade ligeiramente menor", explica Taberner Ferrer. Em outras palavras, é preferível que um algoritmo como esse peque por excesso de cautela: é melhor errar um pouco, gerando alarmes falsos em pessoas saudáveis, do que deixar passar um caso real de câncer.

Pele escura, diagnóstico incerto

Os problemas com o Quantus Skin vão além de sua baixa sensibilidade. O estudo avaliou apenas sua eficácia clínica no diagnóstico de melanoma, mas não analisou outros tipos de câncer de pele mais comuns, porém menos agressivos, como carcinoma basocelular e carcinoma espinocelular, nos quais o programa também pode ser aplicado. Os autores também não estudaram como a cor da pele afeta o desempenho do algoritmo, embora reconheçam que esta é uma das principais limitações de sua pesquisa.

O Quantus Skin, baseado em redes neurais, aprendeu a reconhecer câncer de pele quase exclusivamente em pessoas brancas. O algoritmo foi inicialmente alimentado com pouco mais de 56.000 imagens da International Skin Imaging Collaboration (ISIC) , um repositório público de fotografias médicas coletadas principalmente por hospitais ocidentais , onde a maioria corresponde a pacientes de pele clara. O Quantus Skin foi então testado usando imagens de 513 pacientes do Hospital Ramón y Cajal, em Madri, todos brancos.

O conjunto de dados usado para alimentar o Quantus Skin inclui imagens de "homens e mulheres caucasianos", confirma o diretor-geral da Transmural Biotech. "Não quero entrar na questão das minorias étnicas e tudo mais, porque a ferramenta é usada pelo País Basco, pelo Osakidetza (Instituto Nacional Basco de Estatística e Censos). O que estou disponibilizando é uma ferramenta, com suas limitações", diz Fernández Rodríguez. Apesar da falta de treinamento em tons de pele mais escuros, o Governo Basco indica que não é necessário "implementar" nenhuma medida "para promover a igualdade e a não discriminação", de acordo com o arquivo Quantus Skin incluído no catálogo de algoritmos e sistemas de inteligência artificial do País Basco. No entanto, como as redes neurais foram treinadas quase exclusivamente com imagens de pessoas brancas, é provável que falhem com mais frequência com tons de pele mais escuros, como os da etnia cigana ou migrantes da América Latina e da África.

"É muito fácil fazer algoritmos falharem", disse Adewole Adamson , professor de dermatologia da Universidade do Texas, à Civio. Ele alertou em 2018 sobre a discriminação que a inteligência artificial poderia causar se não fosse desenvolvida de forma inclusiva e diversa, um problema que vai além da Quantus Skin.

Suas previsões foram confirmadas. Em dermatologia, quando algoritmos são alimentados principalmente com imagens de pacientes brancos, a "confiabilidade diagnóstica em tons de pele mais escuros" diminui, afirma Taberner Ferrer. O algoritmo Skin Image Search da empresa sueca First Derm, treinado principalmente com fotos de pele branca, teve sua precisão reduzida de 70% para 17% quando testado em pessoas com pele mais escura. Pesquisas mais recentes confirmaram que esses tipos de algoritmos apresentam desempenho pior em pessoas negras, não devido a problemas técnicos, mas à falta de diversidade nos dados de treinamento.

Embora o melanoma seja um câncer muito mais comum em pessoas brancas, pessoas com pele mais escura têm uma taxa de sobrevida global significativamente menor . O engenheiro americano Avery Smith está bem ciente desses números. Sua companheira, Latoya Smith, foi diagnosticada com melanoma apenas um ano e meio depois de se casarem. "Fiquei realmente surpreso com as taxas de sobrevivência por etnia. Latoya, sendo afro-americana, estava no fundo do poço. Eu não sabia disso até que me atingiu como se tivesse sido atropelado por um ônibus. Foi assustador", disse ele à Civio. Algum tempo depois do diagnóstico, no final de 2011, Latoya faleceu.

Desde então, Avery Smith tem trabalhado para alcançar uma dermatologia mais inclusiva e garantir que os algoritmos não amplifiquem as desigualdades . Para enfatizar o "impacto" que eles podem ter, especialmente em grupos vulneráveis, Smith rejeita se referir à inteligência artificial como uma "ferramenta", como se fosse simplesmente uma "tesoura": "É um termo de marketing, uma forma de fazer as pessoas entenderem. Mas é muito mais do que isso."

A especialista jurídica Anabel K. Arias , porta-voz da Federação de Consumidores e Usuários ( CECU ), também fala sobre esses efeitos: "Ao considerar o uso para diagnóstico precoce, pode haver uma parcela da população sub-representada. Nesse caso, o diagnóstico pode ser errôneo e ter impacto na saúde da pessoa. Pode-se até mesmo considerar danos."

Pacientes invisíveis aos olhos de um algoritmo

“As pessoas tendem a confiar muito na inteligência artificial, atribuímos a ela qualidades de objetividade que não são reais”, diz Helena Matute Greño , professora de psicologia experimental na Universidade de Deusto. Qualquer IA usa as informações que recebe para tomar decisões. Se esses dados de entrada não forem bons ou incompletos, ela pode falhar. Quando comete erros sistemáticos, o algoritmo comete erros que chamamos de vieses. E, se eles afetam mais um determinado grupo de pessoas — devido à sua origem, cor da pele, gênero ou idade — falamos de vieses discriminatórios.

Uma revisão publicada no Journal of Clinical Epidemiology mostrou que apenas 12% dos estudos sobre IA na medicina analisaram se ela era tendenciosa. E, quando o eram, o viés mais comum era o racial, seguido por gênero e idade, com a grande maioria afetando grupos historicamente discriminados. Esses erros podem ocorrer se os dados de treinamento não forem suficientemente diversos e equilibrados : se os algoritmos aprendem apenas com uma parcela da população, eles apresentam desempenho pior em grupos diferentes ou minoritários.

Os erros não se limitam apenas à cor da pele. As tecnologias comerciais de reconhecimento facial falham muito mais ao classificar mulheres negras porque historicamente foram treinadas em imagens de homens brancos. Algo semelhante acontece com algoritmos que analisam radiografias de tórax ou preveem doenças cardiovasculares, cujo desempenho diagnóstico é pior em mulheres se os dados de treinamento forem desbalanceados . Enquanto isso, um dos conjuntos de dados mais amplamente usados ​​para prever doenças hepáticas é completamente tendencioso — 75% dos dados são de homens — então os algoritmos que o usam falham com muito mais frequência com mulheres. No Reino Unido, o algoritmo para priorizar transplantes discriminou pessoas mais jovens . O motivo? Ele havia sido treinado em dados limitados, que levavam em consideração apenas a sobrevivência nos próximos cinco anos , e não toda a vida que os pacientes que receberam um novo órgão poderiam ganhar.

"Os dados utilizados para o treinamento devem representar toda a população onde serão utilizados posteriormente", explica a Dra. Nuria Ribelles Entrena , porta-voz da Sociedade Espanhola de Oncologia Médica ( SEOM ) e oncologista do Hospital Universitário Virgen de la Victoria, em Málaga. "Se eu treinar apenas com um determinado grupo de pacientes, o treinamento será muito eficaz nesse grupo, mas não em outro", acrescenta.

Evitando preconceitos, uma pista de obstáculos

A solução para evitar vieses existe: "O conjunto de treinamento deve ser o mais amplo possível", explica López Rueda. Mas isso nem sempre pode ser verificado. Até o momento, a maioria dos sistemas de inteligência artificial implementados na Espanha que utilizam imagens médicas não costuma publicar dados de treinamento. É o caso de dois dispositivos de dermatologia — cujos nomes são desconhecidos — que serão ativados primeiro na área de saúde Caudal e depois expandidos para todo o Principado das Astúrias. É também o caso do aplicativo comercial ClinicGram , para detecção de úlceras do pé diabético, implementado no Hospital Universitário de Vic (Barcelona); ou dos diversos sistemas privados de radiologia, como BoneView e ChestView, ou Lunit, que operam em alguns hospitais da Comunidade de Madri, do Principado das Astúrias e da Comunidade Valenciana.

Quando os conjuntos de dados são acessíveis, outro obstáculo é que eles não incluem metadados, como origem, gênero, idade ou tipo de pele, o que nos permitiria verificar se são inclusivos e equilibrados. Na dermatologia , a maioria dos conjuntos de dados públicos normalmente não identifica a origem ou o tom de pele dos pacientes. Onde essas informações são incluídas, estudos mostram consistentemente que a população negra é significativamente sub-representada . "Há uma conscientização crescente sobre o problema, e os desenvolvedores de algoritmos têm tentado corrigir essas deficiências. No entanto, ainda há trabalho a ser feito", afirma o Professor Adamson.

Em 2022, a Osakidetza concedeu um contrato no valor de quase € 1,6 milhão à Transmural Biotech para implementar "algoritmos de inteligência artificial em imagens médicas", exigindo sensibilidade e especificidade de "pelo menos" 85%. A empresa, um spin-off da Universidade de Barcelona e do Hospital Clínic, pertence à seguradora privada Asisa. Segundo a Osakidetza, apesar de as especificações incluírem vários algoritmos, apenas dois foram finalmente escolhidos, incluindo o Quantus Skin, por seu "maior impacto na saúde" e "maior desempenho em saúde". Como a Civio apurou, a decisão foi tomada unilateralmente, sem consultar os especialistas relevantes. Em fevereiro, a Osakidetza também afirmou que o Quantus Skin havia passado "pelas fases de validação" e estava "na fase de integração". Em resposta aos questionamentos da Civio sobre sua eficácia clínica, a empresa agora afirma que o produto continua sendo testado e que tomará decisões "com base nos resultados obtidos". No entanto, ele evita responder se tinha conhecimento de que os dados de eficácia clínica publicados para o Quantus Skin (sensibilidade de 69,1% e especificidade de 80,2%) estavam abaixo do limite de 85% exigido pelo contrato. Além da adjudicação no País Basco, a Transmural Biotech tem apenas um outro contrato público, na Catalunha, por um valor muito menor (€ 25.000) para certificar algoritmos de inteligência artificial em radiologia.

Este artigo foi publicado originalmente na Civio , uma redação independente e sem fins lucrativos que realiza pesquisas aprofundadas sobre assuntos públicos. Você pode encontrar a metodologia completa.

EL PAÍS

EL PAÍS

Notícias semelhantes

Todas as notícias
Animated ArrowAnimated ArrowAnimated Arrow