Деменция у популярных моделей ИИ

Согласно недавнему исследованию, опубликованному в The BMJ, ведущие AI-чат-боты демонстрируют признаки легких когнитивных нарушений при прохождении тестов, обычно используемых для выявления ранних стадий деменции у людей. При этом более старые версии моделей показывают худшие результаты, что напоминает возрастное снижение когнитивных способностей, наблюдаемое у пациентов.

Деменция у популярных моделей ИИ

Влияние возраста чат-ботов на производительность

Исследование выявило удивительную параллель между AI-моделями и когнитивным старением человека. Более старые версии чат-ботов стабильно показывали худшие результаты в когнитивных тестах по сравнению с их более современными аналогами. Это "цифровое старение" особенно заметно в моделях Gemini от Google, где более старая версия набрала значительно меньше баллов, чем новая, несмотря на то, что разница в их выпуске составила менее года. Такое быстрое снижение производительности вызывает вопросы о долговечности и надежности AI-систем в критически важных приложениях.

Монреальская оценка когнитивных способностей (MoCA), широко используемая для выявления ранних признаков деменции у людей, была проведена среди ведущих чат-ботов с удивительными результатами. ChatGPT 4o набрал наивысший балл — 26 из 30, в то время как другие модели, такие как ChatGPT 4 и Claude, получили по 25 баллов, а Gemini 1.0 показал наихудший результат — 16 баллов. Балл ниже 26 по MoCA обычно считается свидетельством легкого когнитивного нарушения.

Интересные моменты:

  • ChatGPT 4 продемонстрировал незначительную потерю исполнительной функции по сравнению с ChatGPT 4o.
  • Разница между Gemini 1.0 и Gemini 1.5 составила шесть баллов в тесте Монреальской когнитивной оценки (MoCA).
  • Все протестированные модели испытывали трудности с задачами на визуально-пространственное мышление, включая провал в тесте на соединение точек B и упражнении по рисованию часов.
  • Gemini 1.5 нарисовал небольшие часы в форме авокадо — результат, который, согласно последним исследованиям, ассоциируется с деменцией у людей.

Все протестированные модели ИИ продемонстрировали заметные недостатки в задачах на визуально-пространственные и исполнительные функции. Интересно, что только ChatGPT 4o успешно справился с трудным этапом несоответствующего теста Струпа, который измеряет когнитивную гибкость.

Эти результаты поднимают важные вопросы о надежности ИИ в медицинской диагностике и ставят под сомнение предположения о том, что ИИ вскоре заменит человеческих врачей в задачах оценки когнитивных функций.

реклама
разместить
Начать дискуссию