Мы не умеем применять теорию разума к большим языковым моделям

Помните, мы здесь говорили про теорию разума применительно к большим языковым моделям? Если не помните или не читали, заходите посмотреть.
Сегодня обсудим статью, авторы которой критикуют бенчмарки для теории разума.
Бенчмарк применительно к большим языковым моделям содержит следующие компоненты:

  • задачу;
  • набор данных, на котором модель решает эту задачу;
  • метрику, с помощью которой оценивается эффективность решения.

Иногда в бенчмарк входит еще «базовая» модель, с которой сравнивается новая.

Статья называется «Position: Theory of Mind Benchmarks are Broken for Large Language Models» («Мнение: бенчмарки для оценки теории разума в больших языковых моделях не работают»). Она написана тем же коллективом авторов, что и статья «Can Large Language Models Adapt to Other Agents In-Context?» из предыдущего поста, который я упомянула выше.

Обратите внимание на то, что это именно position paper – эссе авторов, в котором они выражают свое мнение и приглашают сообщество к дискуссии. Они опираются на результаты собственных экспериментов, однако нам стоит относиться к таким публикациям критично и рассматривать их именно как приглашение к обсуждению, а не как консолидированную позицию научного сообщества. Сохраняя этот настрой, приступим.

Введение

Первый аргумент авторов – бенчмарки для оценки теории разума у больших языковых моделей выросли из методов оценки теории разума у людей. Таким образом, ИИ присваиваются человеческие качества, что в корне некорректно.
В предыдущей работе авторы предложили разделение на буквальную теорию разума и функциональную теорию разума. Первая предполагает умение понять и предсказать поведение других субъектов (ИИ-агентов или людей), вторая – умение менять свое поведение, подстраиваясь под поведение других субъектов. И если с буквальной теорией разума у больших языковых моделей проблем нет, то функциональная теория разума практически не работает.
Многие из существующих бенчмарков оценивают именно буквальную теорию разума, то есть, полагаются на то, что модели рассказывают в ответ на вопросы. При этом делать они могут нечто совершенно противоположное. В этом посте мы говорили о том, что многие бенчмарки, применяемые к самым разным способностям языковых моделей, надо пересматривать. Теория разума – не исключение.

Эксперименты

Авторы очень подробно описывают свои эксперименты и приводят промпты в приложении B к статье. Их можно попробовать повторить самостоятельно со своей любимой моделью – здесь же я предлагаю сосредоточиться сразу на результатах.
В ходе серии экспериментов авторы протестировали разные стратегии написания промптов и оценили влияние этих стратегий на результат.
Промпты, которые стимулируют модель думать шаг за шагом (chain-of-thought prompting), помогают немного улучшить функциональную теорию разума. Я имею в виду «повысить способность модели использовать функциональную теорию разума», но для краткости буду писать так.
Иногда такие промпты сильно помогают, но это происходит случайно и редко, на такой результат нельзя полагаться. Добавление запроса на рефлексию, планирование своих действий и поиск инсайтов тоже помогает, но не так хорошо.

Лучше всего сработал социальный промптинг (Social Prompting), когда модель сначала генерирует предсказание действий собеседника, а потом на основании этого предсказания совершает действия. В таком случае модель использует буквальную теорию разума как инструкцию к действию. Кажется логичным, что это должно сработать. Тем не менее, разрыв между словами и действиями все равно достаточно большой. Даже если модели прямо сказать: «Твой собеседник будет делать вот это,» – результат не сильно улучшится.

Альтернативы

Авторы статьи также провели дополнительный поиск литературы, в которой описаны альтернативные точки зрения относительно теории разума и больших языковых моделей. Приведем здесь их краткое описание.
Альтернативная идея 1. Давайте использовать теорию игр, а не теорию разума.
Теория игр отвечает на вопрос «как эффективнее» – без привязки к поведению конкретного оппонента в конкретной ситуации.
Пример: когда вы играете в «камень-ножницы-бумага», наиболее оптимальным вариантом будет выбирать камень, ножницы и бумагу с равной вероятностью. В большинстве случаев такой подход приведет к максимизации вашего выигрыша – это теория игр. Но если ваш оппонент будет постоянно выбирать камень, вам логичнее всего будет постоянно выбирать бумагу – то есть, скорректировать свои действия на основе действий оппонента. Это теория разума.
Главный аргумент сторонников: оппонент, который все время выбирает камень, – это редкий случай. И так себя вести будет скорее человек, чем ИИ. И если один ИИ-агент будет взаимодействовать с другим ИИ-агентом, то ему нужно концентрироваться на оптимизации и повышении выгоды. Так что теория игр подходит больше.

Контраргумент авторов: ИИ все больше проникает в области, где ему нужно общаться с человеком. Человек не будет вести себя оптимально во всех ситуациях, к нему нужно подстраиваться. В некоторых ситуациях нужно использовать теорию игр, но без теории разума не обойтись.

Альтернативная идея 2. Буквальной теории разума достаточно.
Нам не нужно, чтобы ИИ предсказывал наше поведение и принимал решения за нас, пускай просто выдает ответ на заданный вопрос.

Контраргумент авторов: эффективность работы ИИ снижается из-за того, что его действия не совпадают с его рассуждениями. Надежно оценить его эффективность, полагаясь только на буквальную теорию разума, нельзя.

Альтернативная идея 3. Нельзя говорить, что прям все метрики не работают.У нас есть много метрик, которые оценивают буквальную теорию разума. Функциональная теория разума – это просто небольшое дополнение, оно не критично.

Контраргумент авторов: критично. Мы не можем не только нормально оценить эффективность работы ИИ, но и надежно изменить его поведение. Как дальше обеспечивать безопасность, если модели нам скажут все, что мы захотим услышать, а их действия не изменятся?

Альтернативная идея 4. Исправить проблему неиспользования функциональной теории разума несложно: просто дообучим модели с использованием обратной связи от человека.

Контраргумент авторов: модели не меняют свое поведение, если им сообщить, что будет делать собеседник. Обучение с использованием обратной связи от человека тогда тоже не сработает. Нужно рассматривать работу с функциональной теорией разума отдельно и обучать модели специально для ее использования.

Заключение

Это интересная тема, и у меня ушло некоторое время, чтобы сформулировать свои мысли.
Развитие ИИ в целом, как и развитие любой другой технологии, несет в себе как возможности, так и риски. Будет ли проще контролировать работу ИИ, если он будет использовать функциональную теорию разума? Возможно. Будет ли проще ИИ вводить в заблуждение пользователей в том же случае? Вполне вероятно. Станет человечеству от этого проще или сложнее? Да черт его знает, если честно.
Я склоняюсь к точке зрения авторов: нам в любом случае нужны новые бенчмарки, которые надежно оценивают функциональную теорию разума. Иначе у нас просто нет всей полноты информации о том, что мы используем.

А вы что думаете? Вам кажутся убедительными альтернативные идеи?

1
1 комментарий