Наука сломалась раньше ChatGPT: ИИ просто подлил масла в кризис воспроизводимости
Вышла статья, полностью сгенерированная ИИ, про то как вода якобы предотвращает Альцгеймер. Твиттер взорвался, люди кричат про исчезающую науку. Но если копнуть глубже, окажется что кризис начался задолго до первого LLM и имеет своё имя: кризис воспроизводимости.
Определение простое: когда сторонняя команда пытается повторить опубликованный эксперимент, она не получает тот же результат. В 2015 году международная группа пыталась воспроизвести 100 исследований из топовых психологических журналов. Удалось с 36. В онкологии Amgen проверила 53 классических работы по раку: вышло с шестью. Все эти работы прошли рецензирование.
Причина банальна. Рецензирование в научных журналах это система чести. Рецензенты читают PDF и верят на слово всему, что автор утверждает про свои измерения, лишь бы это выглядело внутренне согласованно. Сам Nature писал в редакционной статье: рецензирование не может и не должно выявлять преднамеренный обман.
Система стимулов работает против честности. Публикуешь яркий результат и получаешь цитирования, имя, гранты. Публикуешь отрицательный результат или провал воспроизведения, всем наплевать. Плюс всегда можно списать невоспроизведённый эксперимент на отличия в условиях.
Из крайних кейсов: Дидерик Стапел, голландский психолог, в 2011 году был пойман на фальсификации данных в 55 статьях за 15 лет работы, включая публикации в Science. Разоблачили его трое стипендиатов из его же лаборатории, а не рецензенты журналов.
ИИ ничего не сломал, он демократизировал ломаный инструмент. Раньше чтобы протащить фейковую статью нужны были работа и лживые данные. Теперь достаточно промпта. В феврале вышла работа с иллюстрациями из Midjourney, где у крысы были гениталии в два раза больше тела. Работа прошла рецензирование.
Для ИТ-сообщества вывод важный. Детекторы ИИ-текста не помогут исправить систему, где система поощряет яркие результаты, а не воспроизводимые. Реальные решения это предрегистрация экспериментов, обязательный открытый код и данные, публикации отрицательных результатов, репликация как отдельный жанр публикации.
Без этого любые исследования, на которых мы обучаем модели или строим медицинские системы, будут стоять на песке. ИИ ускоряет производство контента, а не качество фильтрации. Проблема не в инструменте, а в институте.