Бросить #ВызовРадиологу: как мы организовали процесс разметки медицинских данных для обучения ИИ

Каждый разработчик систем искусственного интеллекта знает: качественные данные для обучения модели — бесценное сокровище. И чем более специфична отрасль, в которой вы работаете, тем больше усилий, времени и денег предстоит потратить на их сбор и обработку.

Мы являемся разработчиками системы искусственного интеллекта, применяемой в медицине — сервиса для выявления патологий по медицинским снимкам Цельс. Медицина, безусловно, относится к самым специфичным сферам применения ИИ: помимо того, что она предполагает высокий уровень ответственности, в ней ещё и остро стоит вопрос качества данных.

Какие данные используются для обучения медицинского ИИ
Что такое разметка данных и почему она так важна
Что за вызов мы бросили рентгенологам и как они на него ответили
Результаты и перспективы этого квеста

Искусственный интеллект представляет собой компьютерную программу, которая призвана оптимизировать те или иные рутинные процессы. Его разработка основана на обучении системы путём подачи на входной слой искусственной нейронной сети большого количества данных. Искусственный интеллект анализирует их, находит общие паттерны и за счёт этого учится интерпретировать данные определённым образом — в зависимости от задачи, которую перед ним ставит разработчик.

В случае с системой Цельс на вход подаются медицинские снимки: маммограммы, флюорограммы, компьютерные томограммы, цифровые изображения гистологического микропрепарата. Но для того, чтобы искусственный интеллект «понял», какие именно объекты ему нужно искать на снимке, необходимо предварительно разметить данные, участвующие в его обучении – то есть сообщить нейросети, на каких снимках присутствует патология, а на каких нет. А ещё лучше – «показать» ей те самые зоны интереса на снимке (злокачественные и доброкачественные новообразования, кальцинаты, лимфоузлы, участки плотности).

Казалось бы: медицинских данных, которые можно использовать для этих целей – море. К примеру, маммографические исследования ежедневно проходят тысячи и сотни тысяч людей во всём мире, и данных должно быть более чем достаточно!

Но на практике мы обнаружим, что в свободном доступе находятся лишь несколько датасетов на несколько тысяч исследований, да и те можно пересчитать на пальцах одной руки. Если же мы начнём просматривать эти выборки, то обнаружим, что сами данные в них могут быть различных видов:

Неразмеченные данные (сырые исследования без диагноза).
Данные, размеченные на уровне диагноза (присутствует информация о наличии/отсутствии признаков одной или нескольких патологий — например, злокачественного новообразования).
Данные, размеченные на уровне контуров объектов (исследования размечены врачами с выделением на изображении контура интересующего нас объекта — например, доброкачественного или злокачественного образования).

Также не стоит забывать, что в онкологии для верификации диагноза производится процедура забора биоматериала (биопсия). Она является финальным подтверждением диагноза, так как вероятность ошибки существует даже у врача-рентгенолога с двадцатилетним стажем. Поэтому каждый из двух подтипов размеченных данных внутри классификации можно подразделить на:

данные с диагнозом, подтверждённым биопсией;
данные без верификации.

Безусловно, при уже разработанной модели искусственного интеллекта не существует бесполезных данных. Можно эффективно использовать даже неразмеченные данные, используя, например, процедуру, которая называется псевдолейбелинг.

В общих чертах этот процесс выглядит так: модель получает на вход неразмеченные данные, генерирует на них предсказания и разметку на объекты. Затем исследователь выбирает среди размеченных данных те, в которых алгоритм наиболее уверен. В дальнейшем эти данные могут подаваться уже на вход нейронной сети для её обучения.

Куда полезнее данные с бинарной разметкой (есть патология / нет патологии). Особую ценность представляют те, результаты анализа которых были подтверждены биопсией — в этом случае, при наличии уже работающей программы, можно сгенерировать контуры патологий, о существовании которых доподлинно известно.

«Венцом» же медицинских данных для обучения ИИ, как можно догадаться, являются датасеты, состоящие из размеченных на объекты исследований, подтверждённых биопсией. С их помощью можно разработать алгоритм, который не просто с высокой точностью определяет, есть ли на снимке патология, но и указывает врачу её локализацию — то есть подсвечивает на изображении именно те области, которые требуют внимания врача.

Цельс выделяет на маммограмме признаки злокачественного новообразования celsus.ai

Для нас, как разработчиков, крайне важно, чтобы результаты, выданные системой, были максимально интерпретируемыми для врача, ведь конечное решение принимает именно он. Мы хотим добиться того, чтобы врач не просто видел непонятно на чём основанные выводы искусственного интеллекта (есть рак / нет рака), но и понимал, какие области на изображении вызвали у системы подозрения.

Но если данные с бинарной разметкой в том или ином виде присутствуют почти в каждом медицинском учреждении, то датасеты с разметкой на объекты, как правило, приходится собирать самостоятельно исходя из конкретной задачи

Как только у нас появилась идея разработать ИИ-систему для выявления патологий по медицинским снимкам, нам было совершенно очевидно: качество данных для обучения = качество нашей будущей модели, её эффективность и в конечном счёте применимость в клинической практике. Поэтому с самого начала в подготовке данных для обучения Цельса принимали участие высококвалифицированные врачи. Каждый снимок независимо размечался несколькими штатными рентгенологами, и если их мнения относительно какого-либо случая расходились, снимок отдавался на дополнительное исследование.

Однако в сфере разработки медицинского искусственного интеллекта, так же как и во многих других сферах, работает принцип Парето, который гласит, что 20% усилий дают 80% результата. Поэтому чем дальше мы продвигались в развитии нашей ИИ-модели, используя исключительно методы науки и машинного обучения, тем больше времени, ресурсов и финансов требовала каждая дополнительная единица точности системы. А значит, повышать метрики только ML-методами было уже неэффективно, нужны были новые наборы качественных данных. А для этого нужны были лучшие профильные специалисты

Так возникла идея организовать прозрачный процесс отбора радиологов для разметки снимков, участвующих в обучении и развитии сервиса «Цельс.Маммография». Этот проект был запущен нами в сентябре 2020 года и получил название #ВызовРадиологу . Он состоял из трёх этапов.

Этап №1: Подготовка выборки и референсных метрик

Для конкурсного отбора использовались маммографические исследования, подтверждённые биопсией и не участвовавшие в обучении системы. Мы прогнали выборку через наш ИИ-алгоритм и затем отобрали 100 исследований: 50 маммограмм с наличием подтвержденного злокачественного образования, 50 без онкологии. Причём выбирали мы в первую очередь именно те исследования, в которых нейронная сеть больше всего сомневалась: мы предположили, что именно эти случаи будут самыми сложными и для врачей.

Но прежде чем предложить эту выборку радиологам, принимающим участие в нашем конкурсном отборе, мы задались вопросом: а какие результаты можно считать хорошими? Поэтому сначала мы попросили выполнить бинарную разметку этих снимков врачам, с которыми мы уже сотрудничали. Таким образом нам удалось сформировать референсные метрики, на которые мы могли опираться при оценке.

Для поиска участников мы использовали следующие инструменты:

Таргетированная реклама в социальных сетях (Facebook, Вконтакте);
Рекламные интеграции в ТГ-каналах и личных блогах в Instagram.

По итогам к первому дню отбора у нас было более 100 заявок.

Этап №2: Бинарная разметка

На этом этапе врачам предстояло проанализировать выборку из маммографических исследований и определить, на каких из них присутствует злокачественное новообразование. Полученные результаты мы сравнивали с референсными метриками и на основании этого принимали решение о дальнейшем участии врача в конкурсе.

Этап №3: Разметка на объекты

Дошедшим до этого этапа 16 рентгенологам предлагалось выполнить разметку на объекты с выделением контура предполагаемого новообразования. Здесь мы обращали внимание не только на качество разметки, но и на готовность врача соблюдать чёткие инструкции при её выполнении.

По итогам проекта #ВызовРадиологу были отобраны 5 рентгенологов, чьи результаты превзошли референсные метрики. Они получили от нашей компании индивидуальные предложения сотрудничества на коммерческой основе.

Но это не единственный результат. Проект такого типа проводился в России впервые, и этот опыт был интересным как для нашей команды, так и для врачей. Мы получили возможность напрямую взаимодействовать с врачами, получать от них обратную связь. А рентгенологи смогли, во-первых, получить опыт работы в ИИ-проекте, а во-вторых, проверить свои знания на нетривиальных исследованиях (некоторые участники дали фидбэк, что случаи действительно не из простых).

Этот #ВызовРадиологу , вероятно, не станет последним. В будущем мы планируем повторять этот квест, делать его более масштабным — поскольку мы заинтересованы в непрерывном улучшении качества нашей ИИ-модели. К тому же, маммография является далеко не единственным направлением диагностики, в котором мы работаем.

#ВызовРадиологу — это первый, но уверенный шаг в сторону развития нового направления во врачебной деятельности. Мы убеждены, что в будущем специалисты в области подготовки данных для обучения медицинского ИИ будут крайне востребованными и высокооплачиваемыми, а работа в этой сфере — одной из самых престижных для медицинских специалистов. И это абсолютно правильно и естественно — ведь обучать медицинский искусственный интеллект должны лучшие из лучших.

Бросить #ВызовРадиологу: как мы организовали процесс разметки медицинских данных для обучения ИИ

Из статьи вы узнаете:

Что такое искусственный интеллект и как его обучают?

Почему данных для обучения не хватает?

Обучение Цельса и #ВызовРадиологу

Итоги отбора