GPT-4 в исследованиях: результаты и применение в Стэнфорде

Исследователи из Стэнфорда протестировали GPT-4 на 476 реальных рандомизированных контролируемых исследованиях (RCT) с американскими респондентами. Корреляция между предсказаниями модели и реальными людьми достигла r ≈ 0,85!

GPT-4 в исследованиях: результаты и применение в Стэнфорде

GPT-4 справился на уровне экспертов даже с исследованиями, опубликованными после окончания его обучения - реальное обобщение, а не запоминание.

Команда Люка Хьюитта показала, что "цифровые участники" радикально ускоряют исследовательский процесс. Они позволяют тестировать гипотезы, оптимизировать дизайн экспериментов и рассчитывать размер выборки до запуска дорогостоящих офлайн-исследований. Пилотные тесты за часы вместо недель, поиск ошибок в дизайне без траты реальных бюджетов.

Николь Мейстер из той же команды обнаружила проблемы с распределением ответов - 𝐋𝐋𝐌 генерируют менее вариативные ответы и склонны к угождению. Решение? Генерация нескольких "виртуальных" участников на один запрос и использование "few-shot" подхода с историческими данными о распределениях. Помогает, но полностью воспроизвести человеческую вариативность не удается.

Модели уже интегрируются в исследовательские процессы: от пилотов до усиления статистической мощности в основных экспериментах. Но остаются риски культурных перекосов - LLM отражают не только данные, но и "убеждения" своей архитектуры.

Кстати будущие тесты ИИ придется проводить на неопубликованных или архивных данных, поскольку новые версии LLM получают доступ к свежим онлайн-материалам, что усложняет оценку их предсказательной точности.

Подписывайтесь на Telegram Сергей Булаев AI 🤖.

1 комментарий