Исследование Microsoft: «ИИ-консилиум» поставил точные диагнозы 85% пациентов, а врачи — 20%
Компания протестировала несколько моделей от мировых разработчиков на 304 «сложных» клинических случаях.
- Microsoft провела тестирование среди 21 практикующего врача из США и Великобритании с опытом работы от пяти до 20 лет и сравнила их результаты с ответами ИИ-моделей.
- Исследователи собрали 304 «сложных» клинических случая из медицинского журнала New England Journal of Medicine с 2017 по 2025 год и сделали на их основе интерактивную программу с чатом, где можно было задавать вопросы виртуальным пациентам.
Чат, в котором ИИ-модель (слева) запрашивает информацию о пациенте. Источник: Microsoft
- Компания проверяла нейросети от OpenAI, Google, Meta*, Anthropic, DeepSeek и xAI. Она также разработала систему Microsoft AI Diagnostic Orchestrator (MAI-DxO), которая «превращает» одну модель в «ИИ-консилиум» — группу ИИ-врачей, обсуждающих диагноз.
- Все модели тестировали по отдельности и в групповом режиме MAI-DxO, и в последнем они показали лучшие результаты.
Голубым на графике обозначено, насколько у моделей повысилась точность диагностики в режиме MAI-DxO. Источник: Microsoft
- В обоих сценариях лучше всех справилась «рассуждающая» o3 от OpenAI. В режиме «ИИ-консилиума» она поставила верный диагноз в 85,5% случаев (по сравнению с 78,6% в одиночку). Живые врачи в среднем верно отвечали в 20% случаев.
Фиолетовая кривая — различные конфигурации в групповом режиме MAI-DxO на базе o3. Другие модели тоже тестировали в этом режиме, но на графике не отобразили. Красным крестом обозначен средний результат живых врачей. Источник: Microsoft
- Исследователи также подчеркнули, что режим MAI-DxO может «сократить ненужные расходы на здравоохранение» и в частности на диагностику на 20%. Работа o3 в «самой дешёвой конфигурации» MAI-DxO стала дешевле на 70% по сравнению с подключением к одиночной модели через API — с $4735 до $7850.
*Meta, владеющая Instagram, Facebook, Threads и WhatsApp, признана в России экстремистской организацией и запрещена.
95 комментариев