Доктор GPT. Большие языковые модели в медицине

Как только появилась самая большая и известная модель ChatGPT, её тут же протестировали на задачах медицины — поддержке в постановке диагнозов и принятия клинических решений, анализа медицинской литературы и взаимодействии с пациентами. В этом материале о том, почему будущее генеративного ИИ в медицине — за более компактными моделями и какие компании уже превращают это будущее в настоящее.

По сути большая языковая модель (Large language Model, LLM) — это тип модели машинного обучения, способный «понимать» естественный человеческий язык посредством глубоких нейронных сетей и генерировать человекопонятный текст.

В целом основная функция под капотом LLM — предсказывание (угадывание, прогнозирование) наиболее вероятного следующего слова в предложении. Такой же процесс реализует Т9 в наших смартфонах, когда набирая текст, мы получаем подсказки на клавиатуре.

Важнейшее условие работы любой модели — обучение. Его суть в «переваривании» огромного количества текстовых данных. По тому, как модели обучены, их можно разделить на следующие типы:

Модели, предварительно обученные на огромных объёмах данных. Этот процесс не контролируется человеком. Данные никак предварительно не размечены, LLM сама учится «отличать плохое от хорошего». Такие модели способны понимать широкий спектр языковых конструкций и не имеют какой-либо узкой специализации.
Модели тонкой настройки также предварительно обучаются на большом наборе данных, а затем донастраиваются на меньшем датасете под конкретную задачу или сферу применения. Такие модели лучше справляются с конкретными узкоспециальными задачами, но и обходятся дороже. Чтобы вручную структурировать и разметить серьёзный объём данных, нужно огромное количество ресурсов.

Как только появилась самая большая и известная модель ChatGPT, её тут же протестировали на задачах из области медицины. Вот лишь несколько примеров:

→ ChatGPT протестировали на 100+ вопросах о заболеваниях сетчатки. Результаты показали, что ChatGPT даёт точные ответы на общие вопросы, но хуже справляется с вопросами о сценариях лечения.

→ ChatGPT продемонстрировал точность, схожую с точностью живого эксперта, в ответах на 85 вопросов по генетике/геномике.

→ ChatGPT был протестирован на 100 вопросах открытого типа по патологии. Модель набрала около 80 % правильных ответов.

→ ChatGPT прошел китайский национальный экзамен по медицинскому лицензированию, но его результаты оказались значительно ниже проходного уровня.

Эксперименты подробно описаны в массе источников:

Интерес понятен. В сфере нехватка специалистов, проблема с доступом к помощи в регионах, сложности, связанные с уровнем подготовки врачей, их загруженностью бумажной работой, и ещё тонна вызовов. Идея делегировать часть задач искусственному интеллекту висит в воздухе.

Вот ключевые участки работы медиков, где можно применить LLM:

1. Расшифровка записей. Суть в том, чтобы автоматизировать преобразование устной речи в письменные заметки.

2. Анализ электронных медицинских записей. Модели можно доверить документацию классов EHR (Electronic health record), EMR (Electronic medical record) и EPR (electronic patient record), чтобы она помогала выявлять в них закономерности и улучшать уход за больным.

3. Поддержка в постановке диагнозов и принятии решений. Модель лучше любого человека способна обобщить сложную медицинскую информацию, а также помочь специалисту поставить диагноз и принять обоснованное решение по сценарию лечения.

4. Помощь в обучении и исследованиях. Модель может изучать огромное количество медицинских исследований и предоставлять специалисту выжимку из них. И в целом условный MedGPT — удобный медицинский справочник.

5. Коммуникации с пациентами. Интеллектуальные чат-боты могут не только рассказать про услуги, напомнить о записи к врачу, но и ответить на вопросы, связанные с самочувствием, подобрать нужные анализы, связать с врачом, успокоить и поддержать.

6. Прогнозирование. Идея в том, что опираясь на данные конкретного пациента и большой массив фоновых знаний, большая языковая модель может с высокой точностью прогнозировать возможное течение болезни и потенциальные риски. А это поможет врачам — и самому пациенту — принять своевременные меры.

7. Разработка планов лечения. На основе данных, упомянутых в предыдущем пункте, модель может разработать и индивидуальный план лечения — или, как минимум, помочь в этом врачу.

Как и любое другое новое техническое решение, LLM вызывает вопросы. Совершенных инструментов нет, а большое пространство для развития — это нормально, когда с технологией активно работают всего несколько лет.

Точность, достоверность, надёжность

Большие языковые модели удивляют широтой познаний — и всё же могут неверно оценивать контекст запроса и ошибаться. Это тревожит сообщество, поскольку ошибки в вопросах, связанных со здоровьем, стоят пациенту дорого.

Обобщение вместо специализации

Существует огромный спектр врачебных специализаций, и кажется, что это количество только растёт. Каждая — специальная область знаний с множеством нюансов, особенностей. LLM, даже обученная на медицинских, но общих данных, может не обладать детальными знаниями в каждой области.

Предвзятость и другие этические аспекты

Как мы уже знаем, LLM учатся на живом материале, созданном людьми. Вместе со знаниями и опытом они впитывают предрассудки, цинизм и другие не самые симпатичные особенности человеческого мышления.

Ключевой аспект работы языковых моделей — обучение. Интуитивно понятно, что для того, чтобы модель качественно обрабатывала запросы связанные с медициной и здоровьем, её нужно обучать (или дообучать) на медицинском материале. Модель, обученная на рандомных текстах в интернете, явно справится с этим хуже, а вероятность ошибки достаточно высока.

Закономерно, что появились модели, прицельно обученные на медицинских данных. В среде стали использовать термины large medicine model и large health model.

Применение больших языковых моделей в здравоохранении уходит корнями в 1960-е годы. Первую заметную попытку использовать NLP (обработку естественного языка) в контексте здравоохранения можно отнести к разработке программы ELIZA в Массачусетском технологическом институте, том самом легендарном MIT. ELIZA стала чат-ботом, когда ещё не существовало слова «чат-бот», и предназначалась для имитации разговора. Эти эксперименты заложили основу для применения НЛП в различных областях, включая здравоохранение.

С 60-х прошло много лет. По меркам науки — целая вечность. Какие компании и продукты сегодня драйвят внедрение искусственного интеллекта в медицине и фармакологии?

GenHealth.ai — стартап, основанный в 2023 году, базируется в штате Вирджиния, США. Вот какие продукты предлагают GenHealth:

LLM. Среди прочего компания разработала модель DOOG-E, обученную на данных миллионов пациентов — диагнозах, процедурах, рецептах. DOOG-E использует 70 миллионов параметров и 1 миллиард токенов. По словам разработчика, DOOG-E — не большая языковая модель (LLM), а скорее большая медицинская модель (LMM). В качестве своего «языка» он использует не слова, а медицинские события. Разнице между этими терминами посвящена статья (и не одна) в блоге GenHealth.
API для доступа к модели. GenHealth предоставляет API для использования своей модели в различных сценариях — например, оценка рисков для страховых компаний, поддержка принятия решений для врачей, моделирование клинических испытаний для фармацевтических компаний и персонализированный анализ для страхования жизни.
История пациента. Используя демографические данные пациента, диагностические коды ICD, коды процедур CPT, данные о времени и коды рецептурных лекарств NDC, модель способна давать прогнозы высокой точности.

«Большинство важных решений в сфере здравоохранения скоро будут поддерживаться ИИ. Мы стремимся сделать ИИ максимально интеллектуальным, безопасным и доступным. Мы надеемся, что наш ИИ в страховых компаниях, поставщиках медицинских услуг, фармацевтических компаниях, разработчиках приложений и в других отраслях отрасли улучшит качество, снизит затраты и поможет людям жить дольше и здоровее. Генеративный ИИ обладает невиданным потенциалом. Мы стремимся привнести этот потенциал в решения в области здравоохранения, которые влияют на повседневную жизнь миллиардов людей».

Med-PaLM — специальная языковая модель для медицинских нужд от Google Research. Последняя версия, Med-PaLM 2, была представлена в марте 2023 года среди прочего сдала профессиональный медицинский экзамен United States Medical Licensing Examination (USMLE) с результатом более чем в 85 %.

Ключевые особенности Med-PaLM:

→ Мультимодальная функциональность. Модель предназначена для обработки различных типов биомедицинских данных — клинические записи, медицинские визуальные данные и геном. Такой подход позволяет решать широкий спектр медицинских задач.

→ Обучение и оценка. Модель построена на основе передовых предварительно обученных моделей, включая Pathways (PaLM) и адаптированную под задачи компьютерного зрения Vision Transformer (ViT). Med-PaLM прошла оценку с использованием эталонного отраслевого теста MultiMedQA.

→ В значительном числе случаев радиологи предпочли радиологические отчёты, подготовленные Med-PaLM, а не рентгенологами.

Среди прочих исследований PaLM подвергался оценке на безопасность ответов в сравнении с ответами живых медицинских сотрудников. В результате большинство ответов были признаны абсолютно безопасными. Впрочем, мы не знаем точно, что это значит. Теоретически можно было обучить модель давать ответы настолько же безопасные, насколько и бесполезные — например, принимать терапевтические дозы витамина C.

Google продолжает разработку модели. В будущем появится мультимодальная версия Med-PaLM M, способная работать не только с текстом, но и данными другой природы. Сейчас модель тестируют избранные клиенты Google Cloud.

Это модель, разработанная Microsoft и обученная на миллионах статей по биомедицинским исследованиям. Функционал без сюрпризов: ответы на вопросы, извлечение данных и генерация профильных текстов.

Интересно, что по шкале PubMedQA модель BioGPT достигла рекордной точности ответов в 81 %, впервые обогнав «человеческий» показатель в 78 %. Ни одна другая модель не могла достичь таких показателей, а предыдущий рекордсмен, модель BioBERT, продемонстрировал 68 %.

Потенциальные кейсы применения включают разработку лекарств, где они могут генерировать описания терапевтических классов или конкретных методов лечения.

Ограничения модели остаются теми же. Как и другие модели искусственного интеллекта, BioGPT может галлюцинировать.

Кроме того, вместе с полезными знаниями модель поглощает деструктивные паттерны человеческого мышления, присутствующие в медицинских исследованиях — например, предрассудки и когнитивные искажения.

John Snow Labs специализируются на разработке решений в области искусственного интеллекта и обработки естественного языка (NLP) именно для здравоохранения и смежных областей. Основанная в 2015 году, компания быстро зарекомендовала себя как лидер в области AI-технологий, предлагая высококачественные модели, данные и инструменты, которые помогают упростить внедрение AI в клиническую практику и работу фармкомпаний.

Продукты John Snow Labs:

1. Большие языковые модели для медицины. По упомянутой выше шкале PubMedQA одна из моделей, разработанных компанией, достигла показателя точности ответов в 78,4 %, побив таким образом GPT 4.

2. Spark NLP. Это библиотека обработки естественного языка является одной из самых популярных в корпоративном сегменте и поддерживает 250+ языков. Она включает более 10 000 предобученных моделей для распознавания сущностей, извлечения информации, анализа эмоций и других задач.

3. Собственная лаборатория генеративного искусственного интеллекта, предоставляющая клиентам специализированные инструменты для работы с медицинскими большими языковыми моделями.

4. Visual NLP. Инструменты для обработки изображений и форм, которые помогают в задачах классификации и извлечения данных из визуальных типов файлов.

5. Медицинский чат-бот, который отвечает, объясняет, даёт релевантные ссылки, ежедневно обновляет медицинские знания и позволяет добавлять собственные базы знаний.

К числу клиентов John Snow Labs относятся крупные медицинские и фармацевтические компании — например, Johnson & Johnson, Roche и Merck. Компания и её продукты имеют внушительный список наград.

В статье Института Человекоцентричного Искусственного Интеллекта (HAI, Institute for Human-Centered Artificial Intelligence, входит в состав Стэнфордского университета) звучат основные опасения относительно имплементации инструментов на базе ИИ в медицинскую практику.

Хотя LLM демонстрируют многообещающие результаты в поддержке принятия клинических решений, коммуникациях с пациентами и анализе медицинской литературы, авторы заключают, что необходим более системный подход к валидации результатов.

Эффективность моделей часто оценивается по узким критериям, которые могут не отражать реальные сценарии в клинической практике. Проблемы, встающие перед сообществом очевидны: «шумные» и неполные данные, конфиденциальность пациентов, этические вопросы…

Отдельная область внимания сообщества — прозрачность процессов, происходящих «под капотом» и приводящего к тому или иному результату. Все существующие модели опираются на глубокое обучение и искусственные нейронные сети, что приводит к эффекту «чёрного ящика».

Эту точку зрения разделяют исследователи CSIRO — национального научного агентства Австралии, занимающегося прикладными и фундаментальными исследованиями в различных областях. Большие языковые модели набирают популярность в сфере здравоохранения, но по их мнению считать их «серебряной пулей» преждевременно. LLM полагаются на высококачественные структурированные данные — а они доступны далеко не всегда. Большинство медицинских данных — заметки врача, рецепты, резюме выписки — неструктурированные.

Было бы ошибкой думать, что нам не нужны структурированные данные, потому что LLM могут решить этот вопрос за нас. По словам Дерека Айрленда, старшего инженера-программиста исследовательского центра AEHRC в составе CSIRO, «может быть, с безграничными вычислительными мощностями это было бы возможно, но у нас их нет».Кроме того, по словам Дэвида, LLM не имеют способностей к рассуждению, поэтому их нельзя использовать для всех задач в здравоохранении. Но нужно отдать им должное, они очень хороши в распознавании паттернов в речи и последующей генерации текста на основе этих паттернов.

Сегодня сообщество сходится во мнении, что для разработки стандартов оценки и руководств по внедрению программ LLM в здравоохранении нужно сотрудничество между исследователями искусственного интеллекта, клиницистами и регулирующими органами. И разумеется, дальнейшие активные исследования в этой области.

Доктор GPT. Большие языковые модели в медицине

База

Большие языковые модели в медицине

Проблемы и вызовы применения LLM в медицине

Модели, разработанные специально для медицины

GenHealth.ai

Med-PaLM от Google Search

BioGPT от Microsoft

John Snow Labs

Опасения профессионального сообщества