Родинка или рак? Алгоритм, который пропускает одну из трех меланом и не обращает внимания на пациентов с темной кожей.

Время — деньги. Особенно когда речь идет о меланоме, самом опасном раке кожи: диагностика этой опухоли как можно раньше имеет решающее значение для спасения жизней, больше, чем при любой другой форме рака . В Испании, по оценкам , к 2025 году будет около 9400 случаев меланомы, очень агрессивной опухоли, которая может быстро распространяться и вызывать метастазы всего за несколько месяцев. Когда это происходит, прогноз часто неблагоприятный, поэтому любая ошибка в диагностике может оказаться фатальной.
Именно эта срочность побудила Страну Басков инвестировать в искусственный интеллект (ИИ). Баскская служба здравоохранения Osakidetza работает над тем, чтобы ее государственные медицинские центры и больницы включили Quantus Skin , алгоритм, предназначенный для диагностики риска рака кожи, включая меланому. Теоретически это обещает упростить процесс: из первичной медико-санитарной помощи семейные врачи смогут отправлять изображения подозрительных новообразований в дерматологическое отделение больницы вместе с вероятностью того, что они злокачественные, автоматически рассчитанной алгоритмом. Идея правительства Басков заключается в том, что Quantus Skin, которая в настоящее время проходит испытания, поможет решить, каких пациентов следует лечить в первую очередь.
Однако данные показывают тревожную реальность. Transmural Biotech, компания, которая продает Quantus Skin, провела первоначальное исследование с многообещающими результатами , но у него были существенные ограничения: оно проводилось полностью онлайн и не было опубликовано ни в одном академическом журнале, то есть оно не прошло обычный контроль качества, требуемый в науке.
Позже дерматологи из больницы Рамона и Кахаля в Мадриде и профессора из Университета Комплутенсе провели второе исследование, опубликованное , чтобы оценить реальную клиническую эффективность Quantus Skin. Эта работа, которая финансировалась и поддерживалась Transmural Biotech, показала худшие результаты: алгоритм пропустил одну из трех меланом. Его чувствительность составляет 69%, то есть он пропускает 31% реальных случаев этого потенциально смертельного рака.
На вопрос Civio о втором исследовании генеральный директор Transmural Biotech Дэвид Фернандес Родригес ответил уклончиво по электронной почте: «Я не знаю, о каком именно исследовании идет речь». После нажатия на телефон он изменил свою историю: «Мы проводили тестирование», чтобы обнаружить потенциальные проблемы внедрения. И в конце разговора Фернандес Родригес признал, что Quantus Skin «не перестал работать, он работал гораздо хуже, но нам нужно было выяснить, почему».
Генеральный директор Transmural Biotech объясняет эти худшие результаты недостатками в захвате изображений из-за несоблюдения инструкций Quantus Skin. Это то, что они также наблюдали в испытаниях в Стране Басков. «Врачи первичной медико-санитарной помощи недостаточно обучены делать снимки», — говорит он, что подчеркивает необходимость «обучения врачей». Однако во втором исследовании участвовали дерматологи, которые специализируются именно на фотографировании подозрительных поражений для последующей диагностики. По словам Фернандеса Родригеса, надежность повысилась после того, как «изображения были тщательно обрезаны», поскольку «они не совсем следовали» инструкциям.
Критика со стороны независимых источников«Для рака кожи чувствительность 70% очень плохая. Это очень плохо. Если вы даете это кому-то, чтобы сделать снимок, чтобы определить, может ли это быть меланома, и они ошибаются в одном из трех, этого недостаточно для скрининга рака кожи в условиях первичной медико-санитарной помощи; вам нужно попросить больше», — объясняет Civio доктор Хосеп Мальвехи Гилера , директор отделения рака кожи в больнице Hospital Clínic в Барселоне. Для доктора Розы Табернер Феррер , дерматолога в больнице Son Llàtzer на Майорке и автора специализированного блога Dermapixel , «31% ложноотрицательных результатов звучат опасно, мягко говоря. Как скрининговый тест, это чепуха».
Однако генеральный директор Transmural Biotech пытается минимизировать проблему, сосредоточившись только на данных, которые говорят в пользу его продукта, избегая упоминания низкой чувствительности Quantus Skin. Согласно тому же исследованию , в котором анализировалась ее клиническая эффективность, система также терпит неудачу по двум пунктам: ее специфичность приводит к 19,8% ложноположительных результатов, то есть она принимает одну из пяти доброкачественных родинок за меланому. Это означало бы, что использование Quantus Skin привело бы к ненужным направлениям почти 20% пролеченных пациентов.
В исследовании авторы — дерматологи больницы Рамона и Кахаля в Мадриде и профессора Мадридского университета Комплутенсе — утверждают, что для Quantus Skin предпочтительнее иметь высокую специфичность (мало ложноположительных результатов) даже ценой низкой чувствительности (больше ложноотрицательных результатов), поскольку он будет использоваться не для окончательной диагностики, а для скрининга, то есть для отсеивания случаев из первичной медицинской помощи. Согласно их гипотезе, это может предотвратить переполнение консультаций специалистов и сократить списки ожидания и связанные с этим медицинские расходы.
Специалисты, с которыми консультировалась Civio, подвергают сомнению стратегию, лежащую в основе алгоритма. Хотя не существует идеального стандарта для диагностики рака — отчасти потому, что это зависит от агрессивности каждой опухоли — то, чего добилась Quantus Skin, далеко от приемлемого. «Если они совершают ошибку, диагностируя меланому в очагах с потенциальным риском быстрого роста и даже смерти пациента, мне приходится быть очень нетерпимым. Мне уже приходится просить чувствительности 92%, 93%, 94% как минимум», — говорит Малвехи Гилера.
«Если они собираются использовать его для скрининга, то система должна обладать чрезвычайно высокой чувствительностью за счет немного более низкой специфичности», — объясняет Табернер Феррер. Другими словами, для такого алгоритма предпочтительнее ошибаться в сторону осторожности: лучше немного ошибиться, генерируя ложные тревоги у здоровых людей, чем пропустить реальный случай рака.
Темная кожа, неопределенный диагнозПроблемы Quantus Skin выходят за рамки его низкой чувствительности. Исследование оценивало только его клиническую эффективность в диагностике меланомы, но не анализировало другие, более распространенные, но менее агрессивные типы рака кожи, такие как базальноклеточная карцинома и плоскоклеточная карцинома, где программа также может применяться. Авторы также не изучали, как цвет кожи влияет на производительность алгоритма, хотя и признают , что это одно из главных ограничений их исследования.
Quantus Skin, основанный на нейронных сетях, научился распознавать рак кожи почти исключительно у белых людей. Сначала алгоритму было предоставлено чуть более 56 000 изображений из International Skin Imaging Collaboration (ISIC) , публичного хранилища медицинских фотографий, собранных в основном западными больницами , где большинство из них соответствуют пациентам со светлой кожей. Затем Quantus Skin был протестирован с использованием изображений 513 пациентов из больницы Ramón y Cajal в Мадриде, все из которых были белыми.
Набор данных, используемый для Quantus Skin, включает изображения «мужчин и женщин кавказской расы», подтверждает генеральный директор Transmural Biotech. «Я не хочу вдаваться в вопрос этнических меньшинств и всего такого, потому что этот инструмент используется Страной Басков, Osakidetza (Баскским национальным институтом статистики и переписей). То, что я предоставляю, — это инструмент со своими ограничениями», — говорит Фернандес Родригес. Несмотря на отсутствие обучения на более темных тонах кожи, правительство Басков указывает, что нет необходимости «реализовывать» какие-либо меры «для содействия равенству и недискриминации», согласно файлу Quantus Skin, включенному в каталог алгоритмов и систем искусственного интеллекта Страны Басков. Однако, поскольку нейронные сети обучались почти исключительно на изображениях белых людей, они, скорее всего, чаще будут терпеть неудачу с более темными тонами кожи, такими как у представителей этнической группы рома или мигрантов из Латинской Америки и Африки.
«Очень легко заставить алгоритмы давать сбой», — сказал Civio Адеволе Адамсон , профессор дерматологии Техасского университета. В 2018 году он предупреждал о дискриминации, к которой может привести искусственный интеллект, если он не будет развиваться инклюзивно и разнообразно, — проблема, которая выходит за рамки Quantus Skin.
Их прогнозы подтвердились. В дерматологии, когда алгоритмам в первую очередь подают изображения белых пациентов, «диагностическая надежность в более темных тонах кожи» снижается, говорит Табернер Феррер. Алгоритм поиска изображений кожи шведской компании First Derm, обученный в первую очередь на фотографиях белой кожи, показал падение точности с 70% до 17% при тестировании на людях с более темной кожей. Более поздние исследования подтвердили, что эти типы алгоритмов работают хуже на чернокожих людях не из-за технических проблем, а из-за отсутствия разнообразия в обучающих данных.
Хотя меланома — это рак, гораздо более распространенный среди белых людей, у людей с более темной кожей общая выживаемость значительно ниже . Американский инженер Эвери Смит хорошо знает эти цифры. Его партнерша Латойя Смит была диагностирована с меланомой всего через полтора года после того, как они поженились. «Я был действительно удивлен показателями выживаемости по этнической принадлежности. Латойя, будучи афроамериканкой, оказалась на самом дне. Я не знал этого, пока меня не ударило так, словно меня сбил автобус. Это было ужасно», — рассказывает он Civio. Через некоторое время после постановки диагноза, в конце 2011 года, Латойя умерла.
С тех пор Эйвери Смит работает над достижением более инклюзивной дерматологии и обеспечением того, чтобы алгоритмы не усиливали неравенство . Чтобы подчеркнуть «влияние», которое они могут оказать, особенно на уязвимые группы, Смит отказывается называть искусственный интеллект «инструментом», как будто это просто «ножницы»: «Это маркетинговый термин, способ заставить людей понять это. Но это гораздо больше».
Эксперт по правовым вопросам Анабель К. Ариас , представитель Федерации потребителей и пользователей ( CECU ), также говорит об этих эффектах: «При рассмотрении вопроса об использовании этого метода для ранней диагностики может оказаться, что часть населения недостаточно представлена. В этом случае диагноз может быть ошибочным и оказать влияние на здоровье человека. Можно даже предположить, что это может нанести вред».
Пациенты, невидимые для глаз алгоритма«Люди склонны доверять искусственному интеллекту, мы приписываем ему качества объективности, которые не являются реальными», — говорит Хелена Матуте Грено , профессор экспериментальной психологии в Университете Деусто. Любой ИИ использует получаемую информацию для принятия решений. Если эти входные данные некачественные или неполные, он может потерпеть неудачу. Когда он совершает систематические ошибки, алгоритм совершает ошибки, которые мы называем предубеждениями. И если они больше влияют на определенную группу людей — из-за их происхождения, цвета кожи, пола или возраста — мы говорим о дискриминационных предубеждениях.
Обзор , опубликованный в Journal of Clinical Epidemiology, показал, что только 12% исследований ИИ в медицине анализировали, является ли он предвзятым. И когда это было так, наиболее распространенной предвзятостью была расовая предвзятость, за которой следовали пол и возраст, причем подавляющее большинство затрагивало группы, которые исторически подвергались дискриминации. Эти ошибки могут возникать, если данные для обучения недостаточно разнообразны и сбалансированы : если алгоритмы обучаются только на части населения, они хуже работают в других или меньшинственных группах.
Ошибки не ограничиваются только цветом кожи. Коммерческие технологии распознавания лиц терпят неудачу гораздо чаще при классификации чернокожих женщин, поскольку они исторически обучались на изображениях белых мужчин. Похожая вещь происходит с алгоритмами, которые анализируют рентгенограммы грудной клетки или предсказывают сердечно-сосудистые заболевания, диагностическая эффективность которых хуже у женщин, если данные для обучения несбалансированы . Между тем, один из наиболее широко используемых наборов данных для прогнозирования заболеваний печени полностью предвзят — 75% данных — мужчины , — поэтому алгоритмы, которые его используют, терпят неудачу гораздо чаще с женщинами. В Соединенном Королевстве алгоритм определения приоритетов трансплантаций дискриминировал молодых людей . Причина? Он был обучен на ограниченных данных, которые учитывали только выживаемость в течение следующих пяти лет , а не всю жизнь, которую могли получить пациенты, получившие новый орган.
«Данные, используемые для обучения, должны представлять всю популяцию, где они впоследствии будут использоваться», — объясняет доктор Нурия Рибельес Энтрена , представитель Испанского общества медицинской онкологии ( SEOM ) и онколог университетской больницы Вирхен-де-ла-Виктория в Малаге. «Если я буду тренироваться только с определенной группой пациентов, это будет очень эффективно именно в этой группе, но не в другой», — добавляет она.
Избегание предубеждений, полоса препятствийРешение, позволяющее избежать предвзятости, существует: «Обучающий набор должен быть максимально широким», — объясняет Лопес Руэда. Но это не всегда можно проверить. До сих пор большинство систем искусственного интеллекта, внедренных в Испании, которые используют медицинские изображения, обычно не публикуют данные обучения. Так обстоит дело с двумя дерматологическими устройствами, названия которых неизвестны, которые будут активированы сначала в зоне здоровья Caudal, а затем расширены на все княжество Астурия. Так же обстоит дело с коммерческим приложением ClinicGram для обнаружения диабетических язв стопы, внедренным в университетской больнице Вика (Барселона); или с различными частными радиологическими системами, такими как BoneView и ChestView, или Lunit, которые работают в некоторых больницах в Мадридском сообществе, княжестве Астурия и Валенсийском сообществе.
Когда наборы данных доступны, еще одним препятствием является то, что они не включают метаданные, такие как происхождение, пол, возраст или тип кожи, которые позволили бы нам проверить, являются ли они инклюзивными и сбалансированными. В дерматологии большинство общедоступных наборов данных обычно не маркируют происхождение или тон кожи пациентов. Там, где эта информация включена, исследования неизменно показывают , что чернокожие люди значительно недопредставлены . «Осознание проблемы растет, и разработчики алгоритмов попытались устранить эти недостатки. Однако еще многое предстоит сделать», — говорит профессор Адамсон.
В 2022 году Osakidetza заключила контракт стоимостью почти 1,6 млн евро с Transmural Biotech на внедрение «алгоритмов искусственного интеллекта в медицинской визуализации», требующих чувствительности и специфичности «не менее» 85%. Компания, ответвление Университета Барселоны и Больницы Клинической, принадлежит частной страховой компании Asisa. По словам Osakidetza, несмотря на то, что спецификации включали несколько алгоритмов, в конечном итоге были выбраны только два, включая Quantus Skin, за его «большее влияние на здравоохранение» и «большую эффективность в области здравоохранения». Как стало известно Civio, решение было принято в одностороннем порядке, без консультаций с соответствующими специалистами. В феврале Osakidetza также заявила, что Quantus Skin прошел «фазы проверки» и находится «на фазе интеграции». В ответ на вопросы Civio о его клинической эффективности теперь она заявляет, что его продолжают тестировать и что она будет принимать решения «на основе полученных результатов». Однако он избегает ответа на вопрос, знал ли он, что опубликованные данные о клинической эффективности Quantus Skin (чувствительность 69,1% и специфичность 80,2%) были ниже порогового значения 85%, требуемого контрактом. Помимо контракта в Стране Басков, у Transmural Biotech есть только один другой государственный контракт в Каталонии на гораздо меньшую сумму (25 000 евро) на сертификацию алгоритмов искусственного интеллекта в радиологии.
Эта статья была первоначально опубликована на Civio , независимой некоммерческой редакции, которая проводит глубокие исследования в области общественных дел. Вы можете найти полную методологию там .
EL PAÍS