Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков

Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков

Существует множество опенсорсного ПО и инструментов для проектов компьютерного зрения и машинного обучения в сфере медицинских визуализаций.

Иногда может быть выгодно использовать опенсорсные инструменты при тестировании и обучении модели ML на массивах данных медицинских снимков. Вы можете экономить деньги, а многие инструменты, например, 3DSlicer и ITK-Snap, предназначены специально для аннотирования медицинских снимков и обучения моделей ML на массивах данных из сферы здравоохранения.

В здравоохранении критически важны качество массива данных и эффективность инструментов, используемых для аннотирования и обучения моделей ML. Это может стать вопросом жизни и смерти для пациентов, ведь для их диагностирования медицинским специалистам и врачам нужны максимально точные результаты моделей компьютерного зрения и машинного обучения.

Как известно командам клиницистов и обработки данных, слои данных в медицинских снимках сложны и детализированы. Для выполнения работы вам нужны подходящие инструменты. Применение неверного инструмента, например, опенсорсного приложения для аннотирования, может негативно повлиять на разработку модели.

В этой статье мы расскажем об основных опенсорсных инструментах для аннотирования медицинских снимков, сценариях применения таких инструментов и о том, как они препятствуют развитию вашего проекта. Мы перечислим те возможности инструмента аннотирования, которые помогут вам преодолеть эти трудности, в том числе и функции, которые обеспечат нужные вам результаты.

Основные опенсорсные инструменты для аннотирования медицинских снимков

На рынке существует множество опенсорсных инструментов, поддерживающих массивы данных медицинских снимков, в том числе 3DSlicer, ITK-Snap, MITK Workbench, RIL-Contour, Sefexa и другие.

В этой статье мы рассмотрим два самых популярных опенсорсных инструмента для аннотирования медицинских снимков: 3DSlicer и ITKSnap. Однако препятствовать развитию проектов по аннотированию медицинских снимков могут не только эти инструменты.

Что такое 3D Slicer?

3D Slicer — это свободная опенсорсная платформа изображений. Она была разработана для «визуализации, обработки, сегментации, регистрации и анализа медицинских, биомедицинских и других 3D-изображений и мешей».

У 3D Slicer существует скачиваемое ПО для десктопных компьютеров, имеется доступ к платформе разработки и активное сообщество пользователей и разработчиков, работающих над схожими задачами. Она спроектирована для работы с одними из самых популярных и широко используемых форматов медицинской визуализации, в том числе с DICOM и NIfTI.

3D Slicer поддерживает 2D-, 3D- и 4D-сегментации, сегментацию на основе AI, инструменты для генерации эталонных данных обучения и расширения для совместимости с Deep Learning, Tensorflow и MONAI. Также в нём есть инструменты для помощи в хирургических операциях и планировании, а также многое другое. На протяжении более чем десяти последних лет основным контрибьютором и спонсором платформы были Национальные институты здравоохранения США (National Institutes of Health, NIH), и за всё время существования 3D Slicer скачали более чем одного миллиона раз.

Несмотря на широкую поддержку и активное сообщество, его пользовательских интерфейс довольно сложен и требует времени для освоения.

Что такое ITK-Snap?

Этот инструмент поддерживает форматы файлов медицинских изображений DICOM и NIfTI, а его основная функциональность — это «полуавтоматическая сегментация при помощи методик активных контуров, а также ручного оконтуривания и навигации по снимкам».

Основной причиной создания этого инструмента стало стремление улучшить сегментацию на медицинских снимках, его разработчики хотели создать самый качественный и интуитивно понятный интерфейс из всего имеющегося на рынке опенсорсного ПО.

ITK-Snap стал результатом совместной работы исследователей PICSL Пенсильванского университета и Scientific Computing and Imaging Institute (SCI) Университета Юты.

Основные сценарии использования опенсорсных инструментов аннотирования медицинских снимков

При работе аннотаторов над массивами данных медицинских снимков опенсорсные инструменты аннотирования используются множеством разных способов. Изображения и видео поступают из десятков разных источников (опенсорсных и внутренних массивов данных организации), например, снимков МРТ, КТ и рентгенограмм.

Конкретные сценарии использования зависят от целей и желаемых результатов проекта анализа медицинских визуализаций при помощи машинного обучения или компьютерного зрения. Конечная цель — решение медицинской задачи, например, увеличение процента точного диагностирования состояния пациентов или использование моделей ML и AI для более эффективного выявления заболеваний и опухолей.

Чем больше данных у вас есть, тем лучше. Чем больше у модели ML данных, с которыми можно работать, тем выше вероятность точных результатов. Однако высокие уровни точности возможны в случае точной и эффективной реализации аннотирования и разметки, а для этого необходимы подходящие инструменты.

Сами по себе опенсорсные инструменты не являются чем-то плохим. Упомянутые выше инструменты изначально разрабатывались для работы с массивами данных и форматами медицинских снимков. Многие из них создавались при участии медицинских специалистов, организаций и дата-саентистов.

Однако существует множество ограничений, и есть риск того, что эти ограничения будут препятствовать проектам аннотирования и компьютерного зрения.

Три причины, по которым опенсорсные инструменты препятствуют вашим проектам аннотирования

1. Невозможность эффективного масштабирования работ по аннотированию

Одна из основных сложностей заключается в масштабировании работ по аннотированию.

При использовании облачных инструментов и платформ команда аннотаторов может совместно работать в реальном времени в разных часовых поясах и напрямую сотрудничать с командами обработки данных и медицинских специалистов в другой стране.

Однако упомянутые в этой статье инструменты предназначены для десктопных компьютеров. Эта особенность серьёзно ограничивает, когда командам аннотаторов нужно совместно работать над крупными массивами медицинских снимков и быстро получать обратную связь от специалистов по медицинской визуализации при обучении моделей ML на новых массивах данных.

Если команда аннотаторов пользуется опенсорсным ПО, то единственный способ обмениваться изображениями и получать обратную связь — это электронная почта и облачные платформы наподобие Dropbox. Это может существенно усложнить масштабирование проектов, особенно когда нужно работать с крупными массивами визуализаций и подчиняться строгим требованиям к безопасности данных.

2. Низкая защита данных усложняет сертификацию FDA и ЕС

В секторе здравоохранения безопасность данных критически важна. В США комплаенс медицинских данных регулируют FDA и HIPAA. В Великобритании и Европе для всех команд, занимающихся обработкой данных, основной заботой всегда являются сертификация ЕС и GDPR, вне зависимости от того, удалена ли из медицинских снимков информация, идентифицирующая пациентов.

При использовании опенсорсных инструментов отсутствует журнал аудита, а в сфере здравоохранения это может оказаться очень дорогостоящей ошибкой. Без журнала аудита и временных меток невозможно доказать, кто работал над какими из изображений, и кто вносил правки, аннотации, метки и любые другие изменения.

Если данные медицинских визуализаций не подвергаются полному аудиту, гораздо сложнее соответствовать требованиям нормативов по защите медицинских данных. Кроме того, аннотаторам становится проще скачивать копии снимков на личные компьютеры и устройства, создавая угрозы безопасности, особенно если на снимках всё ещё присутствует идентифицирующая пациентов информация.

3. Невозможность мониторинга аннотаторов

Опенсорсные инструменты аннотирования бесплатны, но это не значит, что они экономически эффективны. В большинстве случаев бесплатные инструменты не так эффективны, как платные. Так как опенсорсные инструменты не работают в облаке, усложняется совместная работа, а менеджеры по аннотациям, DataOps и медицинским проектам не имеют возможности выполнять мониторинг прогресса аннотаторов.

В отличие от платных решений, эти инструменты не имеют дэшбордов производительности и аналитики. Если менеджер не может эффективно контролировать работу аннотаторов, то усложняется управление проектом, а эффективность аннотаторов будет снижаться.

В результате этого проекты аннотирования занимают больше времени, а в случае необходимости повторного аннотирования или низкой точности генерация точных данных обучения займёт ещё больше времени.

Как нужно выбирать инструмент медицинского аннотирования, чтобы преодолеть эти трудности?

Учитывая трудности, связанные с опенсорсными инструментами для аннотирования медицинских снимков, неудивительно, что многие руководители проектов и менеджеры ищут платные решения.

Чтобы достичь нужных результатов в проектах аннотирования медицинских снимков, вам нужен инструмент со следующими возможностями:

Простой в использовании облачный интерфейс совместной работы

Это может показаться очевидным, но очень важно, чтобы используемый аннотаторами интерфейс был интуитивно понятным и обеспечивал возможность совместной работы.

Вам нужно быть уверенными, что аннотаторы в разных странах или в разных сменах смогут совместно работать над одними массивами медицинских снимков, и что эти массивы данных при необходимости доступны командам в других странах. Самый эффективный способ для этого — облачный интерфейс.

Инструмент должен быть спроектирован специалистами по медицинской визуализации и дата-саентистами из сферы здравоохранения

Вам нужно ПО для аннотирования, спроектированное при поддержке и в тесном сотрудничестве со специалистами в сферах данных и медицинской визуализации. Аннотирование медицинских снимков — более сложная и запутанная задача, чем аннотирование в других отраслях. Используя подходящий инструмент, вы сможете быть уверены, что он спроектирован с учётом ваших потребностей и целей проектов.

Нативная поддержка файлов DICOM и NIfTI

Необходимо, чтобы подходящий инструмент имел нативную поддержку файлов DICOM и NIfTI. Вам нужен инструмент, имеющий функции, специально предназначенные для аннотирования и разметки DICOM, а также других файлов и форматов медицинских снимков.

Инструмент для аннотирования медицинских снимков должен позволять вам просматривать изображения в 2D-плоскостях (корональной, сагиттальной, аксиальной), отображать медицинские метаданные и выполнять регулировку ширины и центра окна.

3D- и 2D-аннотирование, мощные функции автоматизации

Функции автоматизации позволяют командам аннотаторов экономить огромное количество времени. Одна из самых мощных функций автоматизации — это интерполяция, позволяющая сопоставлять пиксельные данные и отрисовывать метки интерполяции в произвольных направлениях.

Дэшборд проекта и контроль качества

Наличие дэшборда проекта и встроенных функций контроля качества необходимо для беспроблемного выполнения любого проекта по аннотированию медицинских снимков. Этого не могут вам дать опенсорсные инструменты, и это может стать вопросом успеха или дорогостоящего провала.

Журнал аудита и соответствие требованиям SOC 2 и HIPAA

Наличие журнала аудита с удобным доступом критически важно для для команд медицинских специалистов и дата-саентистов, а также для менеджеров. Без журнала аудита данных невозможно достичь комплаенса FDA, CE, SOC 2 (Systems and Organizational Control 2) и HIPAA (Health Insurance Portability and Accountability Act). Эта функция должна присутствовать во всех инструментах аннотирования медицинских снимков.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

  • Как подготовиться к сбору данных, чтобы не провалиться в процессе?
  • Как работать с синтетическими данными в 2024 году?
  • В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

11
Начать дискуссию