21 моделей протестировали на врачебное мышление. И ни одна не прошла по-настоящему. Врачи выдыхайте 😅

Mass General Brigham прогнали 21 LLM через не просто задачу “назови диагноз”, а через нормальную врачебную цепочку:

анамнез → гипотеза → дифференциальный диагноз → обследование → финальное решение.

И вот тут выяснилась неприятная вещь.

Когда модели дают уже почти весь набор данных, они часто приходят к правильному диагнозу.

Но ранние этапы, где и начинается настоящая медицина, они проваливают.

Пропускают важные вопросы.

Не держат приоритеты.

Слабо работают с неопределённостью.

То есть проблема не в том, что LLM ничего не знают.

Проблема в том, что они могут звучать как умный врач в конце задачи, не умея мыслить как врач в начале.

Это как студент, который правильно написал ответ внизу страницы, но не показал решение.

Только в медицине это не школьная ошибка.

Потому что врач работает не с готовым финалом.

Он работает с кусками информации, красные флаги, вероятностями и риском пропустить опасное.

Именно поэтому вывод исследования довольно жёсткий:

готовые LLM пока не подходят для автономного клинического применения.

Они могут помогать.

Но подменять врачебное мышление, пока нет.

Что будут делать дальше, уже тоже довольно понятно.

Не пытаться просто “скормить модели ещё больше медицинских данных”.

А учить их именно процессу клинического мышления:

• лучше собирать дифференциальный диагноз,

• задавать правильные уточняющие вопросы,

• выделять красные флаги,

• держать приоритеты при неполной информации,

• и отдельно дообучать под реальные клинические сценарии, а не под красивые финальные ответы.

Плюс почти наверняка весь рынок пойдёт в сторону моделей не “вместо врача”, а “рядом с врачом”:

как второй взгляд,

как помощник в приоритизации,

как инструмент для диагностики,

как страховка от пропущенной гипотезы.

То есть будущее здесь не в AI-докторе, который всё решает сам.

А в системах, которые усиливают клиническое мышление человека, но не притворяются, что уже умеют его заменить.