Сотни алгоритмов должны были отлавливать коронавирус. Все оказались бесполезными

Фото: Unsplash/National Cancer Institute

В разгар пандемии разработчики искусственного интеллекта решили помочь медикам и создали множество инструментов — моделей глубокого обучения — которые могли бы определять коронавирус. Похоже, что пользы эти алгоритмы не принесли.

Некоторые из них не прошли надлежащего тестирования и все равно применялись в больницах. Но пандемия может помочь улучшить медицинские ИИ.

Когда в марте 2020 года COVID-19 поразил Европу, больницы погрузились в кризис, глубину которого никто не понимал. «Врачи совершенно не представляли, что делать с такими пациентами», — говорит Лауре Винантс. Винантс — эпидемиолог из Маастрихтского университета в Нидерландах и изучает инструменты прогнозирования.

Но поступали данные из Китая, который на четыре месяца раньше вступил в борьбу с пандемией. Если обучить машинные алгоритмы на этих данных, чтобы помочь врачам понимать, что они видят, и какие решения принимать, это могло спасти жизни. «Я думала: „Именно сейчас ИИ докажет свою пользу‟, — говорит Винантс. — У меня были большие надежды».

Чуда не произошло, хотя прилагалось множество усилий. Научные группы со всего мира бросились на помощь. Сообщество по исследованиям искусственного интеллекта поспешило разработать программное обеспечение. Многие считали, что это ПО позволит больницам быстрее диагностировать и сортировать пациентов, оказывая столь необходимую поддержку на передовой борьбы с коронавирусом. В теории.

На практике были разработаны сотни прогностических инструментов. Ни один из них не принес пользы, а некоторые были потенциально опасными.

Это обоснованный вывод нескольких исследований, опубликованных за последние месяцы. В июне британский научно-исследовательский институт Тьюринга опубликовал отчет, где подвел итоги обсуждений на серии прошлогодних семинаров. Консенсус состоял в том, что инструменты ИИ оказали незначительное влияние, если вообще оказали, на борьбу с пандемией.

Не для клинического использования

Это перекликается с результатами двух крупных исследований, которые оценили сотни инструментов прогнозирования, разработанных в прошлом году. Винантс является ведущим автором одной из этих двух работ, обзора в British Medical Journal. Обзор все еще обновляется по мере выпуска новых инструментов и тестирования существующих. Исследовательница и ее коллеги изучили 232 алгоритма диагностики пациентов. Выяснилось, что ни один из алгоритмов не пригоден для клинического использования. Всего два из них были выбраны для будущих испытаний как достаточно многообещающие.

«Это шокирует, — говорит Винантс. — У меня изначально были опасения, но реальность превзошла мои худшие ожидания».

Исследование Винантс подкреплено другим большим обзором, опубликованным в журнале Nature Machine Intelligence. Его провел Дерек Дриггс, исследователь машинного обучения из Кембриджского университета, вместе со своими коллегами. Его команда сосредоточилась на моделях глубокого обучения, которые диагностировали Covid-19 и прогнозировали риск для пациентов на основе медицинских изображений, вроде рентгеновских снимков и компьютерной томография (КТ) грудной клетки. Исследователи просмотрели 415 опубликованных инструментов. Как Винантс и ее коллеги, они тоже пришли к выводу, что ни один из этих алгоритмов не подходит для клинического использования.

Количество изображений, использованных для тестирования моделей, разбитые по классам. Обзор Дерека Дриггса и команды

«Эта пандемия стала большим испытанием для ИИ и медицины, — говорит Дриггс. Сейчас он сам работает над алгоритмом машинного обучения, чтобы помогать врачам во время пандемии. — Она в значительной степени могла переманить общественность на нашу сторону, — отмечает исследователь. — Но мне кажется, что тест мы не прошли».

Обе команды обнаружили, что создатели повторяли одни и те же типичные ошибки при обучении и тестировании своих алгоритмов. Неверные предположения о данных часто означали, что уже обученные модели не работали, как заявлено.

Винантс и Дриггс по-прежнему считают, что ИИ может помочь. Но они обеспокоены, что он может навредить, если выстроен неправильно, поставив неверный диагноз или недооценив риск для уязвимых пациентов. «Сейчас существует много шумихи о моделях машинного обучения и о том, что они могут делать», — заметил Дриггс.

Нереалистичные ожидания побуждают использовать эти инструменты до того, как они полностью готовы. Винантс и Дриггс утверждают, что одни из изученных ими алгоритмов уже используются в больницах, а другие продаются частными разработчиками. «Я опасаюсь, что они могли навредить пациентам», — говорит Винантс.

Так что же пошло не так? И как нам заполнить этот пробел? Положительная сторона в том, что благодаря пандемии многие исследователи осознали необходимость изменить способ создания ИИ-инструментов. «Пандемия привлекла внимание к застарелым проблемам», — отмечает Винантс.

Что пошло не так

Многие из обнаруженных проблем связаны с низким качеством данных, которые исследователи использовали для разработки инструментов. Информацию о пациентах с коронавирусом, включая медицинские снимки, собирали и распространяли в разгар глобальной пандемии — сами врачи, которые пытались изо всех сил вылечить этих же пациентов. Исследователи хотели помочь быстро, и это были единственные доступные наборы данных. Поэтому многие инструменты были созданы с использованием неправильно маркированных данных или данных из неизвестных источников.

Дриггс подчеркивает проблему того, что он называет «Франкенштейновыми данными». Они собираются вместе из нескольких источников и могут содержать дубликаты, что означает, что некоторые инструменты в конечном итоге тестируются на той же информации, на которой были обучены. В результате они кажутся более точными, чем являются на самом деле.

Также сложно определить происхождение некоторых наборов данных. Поэтому исследователи могут упускать важные особенности и искажать обучение моделей. Многие, сами того не подозревая, использовали снимки грудной клетки здоровых детей в качестве примеров того, как выглядели случаи без заражения коронавирусом. В в результате ИИ научились определять детей, а не наличие вируса.

Группа Дриггса обучила свою собственную модель, используя набор данных, который содержал комбинацию снимков лежащих и стоящих пациентов. Поскольку пациенты, у которых делали снимки в положении лежа, с большей вероятностью были серьезно больны, ИИ неправильно научился предсказывать серьезный риск коронавируса, основываясь на позе человека.

В других случаях некоторые ИИ улавливали шрифт текста, который больницы использовали для маркировки снимков. В результате шрифты из больниц с более серьезной нагрузкой стали предикторами риска заражения коронавирусом.

Оглядываясь назад, подобные ошибки кажутся очевидными. Если исследователи знают о них, то все можно исправить, изменив модели. Можно признать недостатки и выпустить менее точную, но не вводящую в заблуждение модель. Однако многие инструменты были созданы разработчиками искусственного интеллекта, которым не хватало медицинских познаний для выявления недостатков в данных, или исследователями-медиками, которым не хватало математических навыков, чтобы компенсировать эти недостатки.

Более скрытая проблема, которую подчеркивает Дриггс, — предвзятость при маркировке набора данных. Например, многие медицинские снимки помечены в зависимости от того, считал ли сделавший их рентгенолог, что у пациента обнаружен коронавирус. То есть любые предубеждения этого конкретного врача включаются в набор данных как объективная реальность. По словам Дриггса, было бы гораздо лучше маркировать снимки в соответствии с результатом ПЦР-теста, а не мнением одного врача. Но в загруженных больницах не всегда находится время на статистические тонкости.

Некоторые из этих инструментов были внедрены в клиническую практику. Винантс говорит, что неясно, какие из них используются и как. Больницы иногда утверждают, что используют инструменты только в исследовательских целях. Поэтому сложно оценить, насколько врачи на них полагаются. «Здесь много секретов», — говорит исследовательница.

Винантс попросила одну компанию, которая продавала алгоритмы машинного обучения, поделиться информацией о своем подходе, но не получила ответа. Позже она нашла несколько опубликованных моделей исследователей, связанных с этой компанией. Все они имеют высокий риск предвзятости. «Мы не знаем, что именно реализовала компания», — говорит она.

По словам Винантс, некоторые больницы даже подписывают соглашения о неразглашении с поставщиками медицинского ИИ. Когда исследовательница спрашивала врачей, какие алгоритмы и программное обеспечение они используют, те иногда отвечали, что им нельзя разговаривать об этом.

Как это исправить

Как устранить проблему? Более точные данные помогут, но во время кризиса это это слишком сложно сделать. Важнее с максимальной отдачей использовать имеющиеся у нас наборы данных. По словам Дриггса, самый простой вариант — тесное сотрудничество разработчиков ИИ и практикующих врачей. Исследователи также должны делиться своими моделями и рассказывать о том, как они обучались, чтобы другие могли тестировать их и опираться на них. «Эти две вещи мы могли бы сделать сегодня, — говорит исследователь. — И они решат, возможно, 50% выявленных нами проблем».

Получать данные было бы проще, если стандартизировать форматы, говорит врач Билал Матин. Он возглавляет группу клинических технологий в Wellcome Trust, в благотворительной организации из Лондона, которая занимается глобальными исследованиями в области здравоохранения.

Еще одна проблема, которую выделяют Винантс, Дриггс и Матин, заключается в том, что большинство исследователей ИИ спешат разработать собственные модели вместо того, чтобы работать вместе или улучшать существующие. Коллективными усилиями разработчиков со всего мира созданы сотни посредственных инструментов, а не горстка как следует обученных и протестированных.

«Почти все модели применяют одни и те же методы с небольшими изменениями и одинаковыми входными данными. Эти модели настолько похожи — и все они совершают одни и те же ошибки, — говорит Винантс. — Если бы все люди, создающие новые модели, вместо этого тестировали уже доступные, то возможно, к настоящему времени у нас было бы что-то, что действительно помогало на практике».

В каком-то смысле это старая проблема с исследованиями. У научных работников мало карьерных стимулов, чтобы делиться работами или подтверждать существующие результаты. Нет никакой награды за то, чтобы пройти «последнюю милю», которая переводит технологию от «лабораторного стола к больничной палате», отмечает Матин.

Для решения этой проблемы Всемирная организация здравоохранения рассматривает возможность заключать экстренный контракт на обмен данными, который вступает в силу во время международных кризисов в здравоохранении. По словам Матина, так исследователям станет легче перемещать данные через границы. Перед саммитом G7 в Великобритании в июне ведущие ученые из участвующих стран также призвали к «информационной готовности» для подготовки к будущим медицинским кризисам.

Инициативы кажутся расплывчатыми, а призывы к переменам всегда звучат как попытка выдать желаемое за действительное. Но Матин придерживается, по его словам, «наивно оптимистического» взгляда. Перед пандемией импульс для похожих идей угас. «Казалось, что на эту гору не взобраться, и результат не стоит усилий, — говорит он. ― Но коронавирус вернул многие из этих вопросов в повестку дня».

«Пока мы всерьез не поверим, что нам нужно решать скучные проблемы, а не интересные, мы обречены повторять одни и те же ошибки, — говорит Матин. — Недопустимо, если этого не происходит. Забывать уроки этой пандемии — неуважительно по отношению к ушедшим из жизни».

Источник: https://habr.com/ru/company/madrobots/blog/572612/

Вернуться к списку

Интересные статьи

Open source в Университете ИТМО: фреймворк для AutoML и библиотека алгоритмов выбора признаков

Мы рассказываем не только о личном опыте учеников, делимся практическими руководствами и публикуем истории студенческих стартапов, но и обсуждаем подходы к развитию карье...

Какие телефоны должны быть в гостиничных номерах?

Эта статья — о выборе устройств для гостиничного номера. О телефонах для сотрудников отелей и IP-АТС для гостиниц читайте в других материалах. Не секрет, что большинство постояльцев в ...

Безопасность сайта в 1С-Битрикс. Стандартные инструменты против взлома

Этот пост будет из серии, об инструментах безопасности, которые доступны в Битриксе сразу «из коробки». Перечислю их все, скажу какой инструмент в какой редакции Битрикса доступен, кратко и не очень р...

«Битрикс24»: «Быстро поднятое не считается упавшим»

На сегодняшний день у сервиса «Битрикс24» нет сотен гигабит трафика, нет огромного парка серверов (хотя и существующих, конечно, немало). Но для многих клиентов он является основным инструментом ...

Рекомендации интегратору 1с-Битрикс

Тема статьи навеяна результатами наблюдений за методикой создания шаблонов различными разработчиками, чьи проекты попадали мне на поддержку. Порой разобраться в, казалось бы, такой простой сущности ка...