Иллюзия на иллюзию иллюзии

🔥 Еще больше интересного в моем канале продуктовые штучки

О чем это? Некоторое время назад Apple сделал громкое заявление, которое взбудоражило сообщества ИИ исследователей: современные рассуждающие модели (LRM) таковыми не являются (The Illusion of Thinking). Исследование породило весьма полезную дискуссию, ответ не заставил себя ждать: буквально через несколько дней вышел ответ (написанный участием LRM) под заголовком The Illusion of the Illusion of Thinking с детальным ответом. И он был не последним: появилась новая статья, с ответом на ответ, на сей раз от Google

Критика методологии исследования Apple

Несостоятельность "коллапса точности": доказано, что резкое падение производительности LRM в экспериментах Shojaee et al. (2025) является следствием методологических ошибок. К ним относятся:

- Использование нерешаемых задач (например, River Crossing при N≥6)

- Игнорирование лимитов токенов вывода, приводящее к искусственному обрыву решений

- Некорректное отождествление длины решения с вычислительной сложностью.

Ограниченность контраргументов Opus et al (ответ Anthropic): Предложенная альтернатива (генерация кода вместо пошагового исполнения) смещает цель оценки: умение сгенерировать алгоритм ≠ способность к длительному последовательному исполнению

Контрэксперименты Anthropic проведены с недостаточной статистической мощностью из-за бюджетных ограничений.

Выявленные реальные ограничения LRM

Хрупкость длинных рассуждений: несмотря на опровержение "коллапса", сохраняется проблема неустойчивости многошаговых операций: модели демонстрируют снижение качества при выполнении длинных последовательностей действий, даже для простых алгоритмов (например, Ханойская башня).

Наблюдается парадоксальное снижение мыслительных усилий на сложных задачах: модели сокращают объём промежуточных рассуждений перед достижением лимита токенов.

Проблема композициональности: производительность моделей сильно зависит от того, насколько знакома задача. Успешное решение Ханойской башни (часто встречающейся в обучающих данных) контрастирует с провалами в менее знакомых задачах аналогичной сложности

Выводы?

"Коллапс" в оригинальном исследовании — иллюзия, порождённая методическими просчётами. Однако сохраняется реальная проблема: LRM демонстрируют хрупкость при длительных последовательных вычислениях и зависимость от шаблонов обучающих данных.

Ключевая иллюзия — вера в то, что один метод оценки может однозначно отделить "рассуждение" от "паттерн-матчинга".

Таким образом, эта работа подтверждает критику методологии исследования Apple, но отвергает крайние утверждения Anthropic, предлагая сбалансированный взгляд на ограничения LRM

Что делать?

Авторы предлагаю рекомендации для будущих исследований – требования к оценке LRM:

-Чёткое разделение тестов на:

  • Генерацию алгоритмов
  • Исполнение длинных последовательностей
  • Решение незнакомых задач Контроль лимитов платформ (токены, контекст)
  • Верификация решаемости задач до тестирования моделей

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1 комментарий