«Данная» проблема — что нужно для качественной ИИ-диагностики в здравоохранении будущего?

Где взять данные и как подготовить размеченные массивы, чтобы ИИ-системы диагностики работали эффективно, реально помогая специалистам в постановке диагнозов и выявлении патологий?

«Данная» проблема — что нужно для качественной ИИ-диагностики в здравоохранении будущего?

Где взять данные и как подготовить размеченные массивы, чтобы ИИ-системы диагностики работали эффективно, реально помогая специалистам в постановке диагнозов и выявлении патологий?

В России, в соответствии с указами Президента, до 1 октября 2021 года Правительство должно утвердить стратегии цифровой трансформации 11 отраслей экономики. Здравоохранение входит в их число.

Ранее, 24 августа 2020 года РВК опубликовала первый национальный стандарт для искусственного интеллекта в здравоохранении — проект ГОСТ Р «Системы искусственного интеллекта в клинической медицине. Часть 1. Клинические испытания», который будет регулировать клинические испытания медицинских ИИ-систем. До 2027 года экспертам Технического комитета при РВК предстоит разработать около 50 стандартов в области искусственного интеллекта в здравоохранении.

Важность ИИ-систем в медицине подтверждается растущим в глобальном масштабе объёмом инвестиций в проекты, связанные с искусственным интеллектом (ИИ) вообще и в медицине, в частности. В первой половине 2021 года в медицинский ИИ вложили $5,27 млрд. Суммарно за два последних года развитие медицинского ИИ инвестировали уже более чем $34,7 млрд. — рассказали аналитики CB Insights.

ИИ-диагностика COVID-19 провалилась

Тем не менее, всё больше приходит информации о том, что ИИ-инструменты для противодействия Covid-19 пока что нельзя использовать в клинической практике. Так, они не сыграли практически никакой роли в борьбе с коронавирусом. Об этом говорят в отчетах The Alan Turing Institute, British Medical Journal, MIT TechnologyReview и других центров аналитики.

Примеры ошибок ИИ-диагностики:

· По снимкам грудной клетки здоровых детей, которые были сделаны в качестве примера не-ковидных случаев, ИИ научился классифицировать детей.

· По диагностическим снимкам грудной клетки тяжелых пациентов, которых обследовали в лежачем положении, ИИ научился предсказывать серьезность риска коронавируса по горизонтальному или вертикальному положению (если пациент стоял, серьезность поражение лёгких ИИ мог просто проигнорировать).

· ИИ воспринял шрифт текста маркировки больничных изображений как диагностический показатель. В итоге шрифты из больниц с большим количеством ковид-пациентов он пометил как фактор риска заражения коронавирусом.

Инвесторы урезали марш

На фоне череды скандалов, спровоцированных низкой эффективностью некоторых профинансированных разработок, инвестиционный ажиотаж по отношению к медицинскому ИИ слегка поутих, хотя рост инвестиций и продолжается. Сильно разочаровал Epic Systems — крупнейший в США разработчик систем ведения электронных медицинских карт: в его базах хранится информация о 180 млн пациентов США (56% населения). Компания защитила патентами 20 ИИ-алгоритмов, которые должны выявлять заболевания и прогнозировать продолжительность пребывания пациента в стационаре.

Независимая группа исследователей проанализировала результаты работы модели Epic (ESM), прогнозирующей сепсис в реальной клинической практике. Результаты удивили и врачей, и инвесторов:

· чувствительность модели — её умение выявлять патологии при их наличии — дотягивает только до 33%. То есть 67 пациентов из 100 могли не получить должного лечения, если бы диагностику полностью доверили Epic (ESM).

· Точность модели составила 12%. Только 843 из почти 7000 предупреждений системы о наличии сепсиса оказались корректными. 88% пациентов система назначила ненужные исследования и анализы.

ИИ без данных — деньги на ветер

Приведенные выше примеры — довольно узкие. Однако их них можно сделать важный вывод: основное препятствие для качественной работы ИИ в здравоохранении — это неготовность данных.

Неполные, недостоверные данные, данные, поступившие из нескольких источников, которые содержат дубликаты, и т.д. — драматически снижают качество ИИ-диагностики.

Между тем, ИИ может стать существенным подспорьем в работе врачей. Он способен делать обобщения и давать рекомендации по клинической картине, выявлять потенциально опасные состояния, отмечать закономерности, которые может в потоке информации не заметить даже опытный врач, а значит — сохранять жизни.

Важно, что с помощью ИИ можно экономить бюджет государства и граждан, определяя патологии на ранних стадиях, когда еще не требуется дорогостоящего лечения. Именно по этой причине технологию развивают во многих странах, в том числе в России, а инвестиции в неё столь велики.

Как не нарваться на технологические пустышки?

Россия способна повысить уровень разработок и качество стартапов в сфере медицинского ИИ. Но для этого нужна определенная степень готовности и доступности данных.

Во-первых, нужно подготовить массивы медицинских данных, которые сегодня уже находятся в распоряжении государства. Проблема в том, что значительная их часть еще не переведена в машиночитаемый вид. В половине субъектов только ещё начинают внедрять электронные медкарты.

Во-вторых, необходимо открыть доступ к этим массивам не только самим медучреждениям, но и другим заинтересованным организациям. Специалисты по работе с данными смогут использовать дата-сеты, чтобы тестировать различные гипотезы и применять разнообразные ИИ-инструменты.

Для централизованного доступа к государственным медицинским данным нужно создать отдельную организацию, которая будет централизованно управлять наборами данных и заключать соглашения на доступ к ним. Подобную идею в индустрии обсуждают давно. Вероятно, в близкой перспективе государственный оператор может появиться в формате автономной некоммерческой организации (АНО) под эгидой федерального министерства.

Особенности перевода

Где взять актуальную информацию о здоровье населения? Как подготовить из нее корректные наборы данных?

Наиболее актуальный «срез» — это сведения из стационаров и результаты диспансеризаций граждан. Диагностическую информацию врачи фиксируют в эпикризах — документах, которые потом распечатывают и сдают в архив. На основании этого документа также выплачивают компенсацию лечения из ФОМС.

Массив эпикризов за последние 3–5 лет — это грандиозный набор данных, который идеально подходит для обучения нейросетей.

Проблема в том, что в каждой медицинской организации эпикризы заполняют по-своему. Соблюдают лишь общее расположение блоков в документе — от анамнеза до результатов лечения. Сам же текст бывает сухим или более «художественным», с сокращениями и латинскими наименованиями, с таблицами и списками результатов обследований. В эпикризах часто присутствует рукописный текст – типичный врачебный почерк. Распознать его при помощи нейросетей практически невозможно, а значит не получится их обучить.

Можно ли в принципе оцифровать такие массивы и перевести из в строгий формат размеченного набора данных? В процессе государственной цифровой трансформации такие прецеденты есть.

Например, в декабре 2020 года был сдан Единый государственный реестр (ЕГР) ЗАГС, в котором накапливается информация о населении России. Для этого по всей стране оцифровали архивы ЗАГСов, накопленные с 1926 года. Решали эту задачу в с помощью нейросетей, результаты работы которых контролировали люди. Они же работали с документами, которые нейросетям недоступны. К сожалению, только нейросетями нельзя обеспечить 100% качества распознавания массива.

Классифицировать документы, автоматически размечать сложную информацию на изображениях и распознавать рукописный текст с высокой достоверностью можно только при условии совмещения искусственной и биологической нейросети. Иными словами, в таких проектах должны участвовать люди, которые возьмут на себя работу с теми документами, которые нельзя будет автоматически обработать машинными способом. Например, человек сможет однозначно определить наименование диагнозов и виды исследований классификатору ОКБ-10.

Как защитить персональные данные людей при обработке информации?

Защитить ПДн пациентов от утраты или утечки можно технологически.

Распознающая программа будет «вырезать» из картинки документа все сведения, позволяющие идентифицировать человека — фамилию, дату, СНИЛС, — все по-отдельности. Это позволит обрабатывать и анализировать медицинскую информацию обезличено. Разрозненные данные не будут представлять какой-либо ценности даже в случае утечки.

Готово ли государство провести такую оцифровку?

Фактически, выбор не велик. Оцифровка эпикризов — единственный доступный способ проанализировать актуальный срез данных о здоровье населения, выявить основные патологии, вовремя среагировать и спасти сотни и тысячи граждан. Альтернативный способ — доработать единые информационные системы до всех медицинских организациях всех регионов, накапливать сведения по единым правилам ведения реестров. На это нужно минимум от 5 до 7 лет.

Оцифровку медицинских документов также можно автоматизировать на уровне 60–70% за счет применения ИИ. Но, как и в случае с актами гражданских состояний, которые оцифровывали для ЗАГСов, потребуется привлечь людей, которые проверят, разметят и нормируют сложные объекты, например однозначно определят наименования диагнозов и виды исследований. На практике задачу можно решить быстро и эффективно, подключив к облачной программной платформе сеть операторов ввода данных, которые работают удаленно — на российском рынке такие решения представлены.

22
Начать дискуссию