Специалисты Сеченовского университета, Yandex Cloud и Beltel Datanomics завершили создание первой в России платформы медицинских данных. На платформу загружены 18 млн уникальных медицинских документов, рассказали Хабру в «Яндексе».
Решение поможет исследователям, врачам, студентам и аспирантам Сеченовского университета Минздрава РФ проводить научные исследования, оценивать эффективность методов лечения на разных группах пациентов, а IT‑командам — создавать сервисы искусственного интеллекта в области здравоохранения.
Более 1000 специалистов смогут за считанные секунды собирать наборы «живых» клинических данных с возможностью фильтрации по 150 параметрам: полу, возрасту, симптомам пациентов и другим характеристикам.
Платформа представляет собой веб‑интерфейс с поисковыми ячейками, в котором можно искать документы и наборы данных по ключевым словам, а также применять различные фильтры. К примеру, можно найти все зафиксированные случаи сахарного диабета у людей в возрасте от 20 до 50 лет, собрать примеры пациентов с повышенным креатинином в заданном диапазоне значений, сделать выгрузку всех известных орфанных заболеваний, и многое другое.
Система автоматически отбирает релевантные документы со ссылками на рентгеновские снимки, результаты лабораторных анализов, КТ, МРТ и других исследований. Данные можно сохранить, выгрузить в табличном виде и использовать для разработки ИИ.
В 2024 году доступ к платформе получат более 1000 специалистов — сотрудников университета. В планах организации — постепенно подключать новые источники данных, настроить визуализацию данных с помощью технологии DataLens и добавить возможность работать с запросами на естественном языке, используя YandexGPT.
«Мы рассчитываем, что в будущем другие медицинские организации смогут подключаться к платформе, чтобы обмениваться данными и делать научные открытия. Мы также готовы делиться датасетами с научным сообществом и разработчиками сервисов искусственного интеллекта, в том числе на коммерческой основе», — рассказал заместитель директора департамента развития клинических и образовательных проектов Первого МГМУ им. И.М. Сеченова Минздрава РФ Константин Бражников.
Решение разработала и внедрила компания Beltel Datanomics, эксперт в области аналитики Big Data и искусственного интеллекта. Платформа университета использует более 10 сервисов Yandex Cloud: виртуальные машины развернуты с помощью Compute Cloud. Пока данных не так много, хранилище данных построено на управляемом сервисе Managed PostgreSQL, по мере роста нагрузки возможна миграция на Managed Service for Greenplum. Система поиска использует технологию Managed OpenSearch.
Важным условием было сохранение «сырых» данных в неизмененном виде, чтобы в последующем можно было повторно их обработать, поэтому первичные данные и логи поступают в объектное хранилище S3 Object Storage. Система защиты информации выстроена в соответствии с политикой информационной безопасности университета.