Исследование Microsoft: «ИИ-консилиум» поставил точные диагнозы 85% пациентов, а врачи — 20%

Компания протестировала несколько моделей от мировых разработчиков на 304 «сложных» клинических случаях.

  • Microsoft провела тестирование среди 21 практикующего врача из США и Великобритании с опытом работы от пяти до 20 лет и сравнила их результаты с ответами ИИ-моделей.
  • Исследователи собрали 304 «сложных» клинических случая из медицинского журнала New England Journal of Medicine с 2017 по 2025 год и сделали на их основе интерактивную программу с чатом, где можно было задавать вопросы виртуальным пациентам.
Чат, в котором ИИ-модель (слева) запрашивает информацию о пациенте. Источник: Microsoft
Чат, в котором ИИ-модель (слева) запрашивает информацию о пациенте. Источник: Microsoft
  • Компания проверяла нейросети от OpenAI, Google, Meta*, Anthropic, DeepSeek и xAI. Она также разработала систему Microsoft AI Diagnostic Orchestrator (MAI-DxO), которая «превращает» одну модель в «ИИ-консилиум» — группу ИИ-врачей, обсуждающих диагноз.
  • Все модели тестировали по отдельности и в групповом режиме MAI-DxO, и в последнем они показали лучшие результаты.
Голубым на графике обозначено, насколько у моделей повысилась точность диагностики в режиме MAI-DxO. Источник: Microsoft
Голубым на графике обозначено, насколько у моделей повысилась точность диагностики в режиме MAI-DxO. Источник: Microsoft
  • В обоих сценариях лучше всех справилась «рассуждающая» o3 от OpenAI. В режиме «ИИ-консилиума» она поставила верный диагноз в 85,5% случаев (по сравнению с 78,6% в одиночку). Живые врачи в среднем верно отвечали в 20% случаев.
Фиолетовая кривая — различные конфигурации в групповом режиме MAI-DxO на базе o3. Другие модели тоже тестировали в этом режиме, но на графике <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Farxiv.org%2Fhtml%2F2506.22405v1&postId=2075982" rel="nofollow noreferrer noopener" target="_blank">не отобразили</a>. Красным крестом обозначен средний результат живых врачей. Источник: Microsoft
Фиолетовая кривая — различные конфигурации в групповом режиме MAI-DxO на базе o3. Другие модели тоже тестировали в этом режиме, но на графике не отобразили. Красным крестом обозначен средний результат живых врачей. Источник: Microsoft
  • Исследователи также подчеркнули, что режим MAI-DxO может «сократить ненужные расходы на здравоохранение» и в частности на диагностику на 20%. Работа o3 в «самой дешёвой конфигурации» MAI-DxO стала дешевле на 70% по сравнению с подключением к одиночной модели через API — с $4735 до $7850.

*Meta, владеющая Instagram, Facebook, Threads и WhatsApp, признана в России экстремистской организацией и запрещена.

44
11
1
1
95 комментариев