Эксперимент Гарварда в отделении неотложной помощи: модель OpenAI o1-preview ставила диагнозы точнее двух врачей

Исследователи Harvard Medical School и Beth Israel Deaconess Medical Center проверили, как старая модель от OpenAI o1-preview справляется с диагностикой по реальным случаям из приемного отделения. В исследовании, опубликованном в журнале Science, ИИ сравнили с двумя лечащими врачами на 76 клинических случаях. Модель чаще давала правильный диагноз на первом этапе оценки пациента, хотя работала только с текстом из электронных медицинских карт.

Эксперимент Гарварда в отделении неотложной помощи: модель OpenAI o1-preview ставила диагнозы точнее двух врачей

В исследовании использовали реальные случаи пациентов, поступавших в отделение неотложной помощи. Для каждого случая модель и врачи получали данные из медицинской карты и должны были предложить диагноз на трех этапах оказания помощи. Первый этап соответствовал ранней сортировке пациента при поступлении, когда у врача еще ограниченный объем информации. Затем участникам давали больше данных, чтобы проверить, как меняется качество диагноза по мере появления новых сведений.

На первом этапе o1-preview дала правильный диагноз в 67,1% случаев. У двух врачей этот показатель составил 55,3% и 50%. Это не означает, что модель «лечила» пациентов или принимала решения в реальном времени: исследование было ретроспективным, то есть авторы анализировали уже завершенные случаи по записям. Диагнозы оценивали два независимых врача-рецензента. Они не знали, какие ответы были написаны моделью, а какие — людьми. По данным исследования, рецензенты не смогли надежно отличить диагнозы ИИ от диагнозов врачей.

Один из примеров, приведенных авторами, касался пациента после трансплантации. Модель раньше врача заподозрила редкую некротизирующую инфекцию мягких тканей — тяжелое состояние, которое иногда называют «плотоядной» инфекцией и которое требует быстрого вмешательства. По материалам исследования, ИИ указал на этот диагноз примерно за 12–24 часа до того, как его распознал лечащий врач.

Авторы работы подчеркивают, что речь не идет о готовности заменить врачей в приемном отделении. Модель не осматривала пациента, не разговаривала с ним, не видела всего клинического контекста и не несла ответственности за лечение. Она анализировала текстовые данные, уже собранные в электронной карте. Но даже ИИ-модель 2024 года смогла эффективно работать с неструктурированным медицинским текстом и находить диагнозы по данным, которые обычно изучает врач в начале приема.

Главный практический вывод связан с тем, что ИИ может помогать врачам там, где нужно быстро рассмотреть несколько возможных диагнозов и не пропустить редкое, но опасное состояние. В приемном отделении врач работает в условиях нехватки времени, неполной информации и большого потока пациентов. Модель, способная быстро обработать медицинскую карту и предложить обоснованные диагностические версии, может стать вторым мнением — особенно в случаях, где симптомы неоднозначны.

2