Иллюзия на иллюзию иллюзии
🔥 Еще больше интересного в моем канале продуктовые штучки
О чем это? Некоторое время назад Apple сделал громкое заявление, которое взбудоражило сообщества ИИ исследователей: современные рассуждающие модели (LRM) таковыми не являются (The Illusion of Thinking). Исследование породило весьма полезную дискуссию, ответ не заставил себя ждать: буквально через несколько дней вышел ответ (написанный участием LRM) под заголовком The Illusion of the Illusion of Thinking с детальным ответом. И он был не последним: появилась новая статья, с ответом на ответ, на сей раз от Google
Критика методологии исследования Apple
Несостоятельность "коллапса точности": доказано, что резкое падение производительности LRM в экспериментах Shojaee et al. (2025) является следствием методологических ошибок. К ним относятся:
- Использование нерешаемых задач (например, River Crossing при N≥6)
- Игнорирование лимитов токенов вывода, приводящее к искусственному обрыву решений
- Некорректное отождествление длины решения с вычислительной сложностью.
Ограниченность контраргументов Opus et al (ответ Anthropic): Предложенная альтернатива (генерация кода вместо пошагового исполнения) смещает цель оценки: умение сгенерировать алгоритм ≠ способность к длительному последовательному исполнению
Контрэксперименты Anthropic проведены с недостаточной статистической мощностью из-за бюджетных ограничений.
Выявленные реальные ограничения LRM
Хрупкость длинных рассуждений: несмотря на опровержение "коллапса", сохраняется проблема неустойчивости многошаговых операций: модели демонстрируют снижение качества при выполнении длинных последовательностей действий, даже для простых алгоритмов (например, Ханойская башня).
Наблюдается парадоксальное снижение мыслительных усилий на сложных задачах: модели сокращают объём промежуточных рассуждений перед достижением лимита токенов.
Проблема композициональности: производительность моделей сильно зависит от того, насколько знакома задача. Успешное решение Ханойской башни (часто встречающейся в обучающих данных) контрастирует с провалами в менее знакомых задачах аналогичной сложности
Выводы?
"Коллапс" в оригинальном исследовании — иллюзия, порождённая методическими просчётами. Однако сохраняется реальная проблема: LRM демонстрируют хрупкость при длительных последовательных вычислениях и зависимость от шаблонов обучающих данных.
Ключевая иллюзия — вера в то, что один метод оценки может однозначно отделить "рассуждение" от "паттерн-матчинга".
Таким образом, эта работа подтверждает критику методологии исследования Apple, но отвергает крайние утверждения Anthropic, предлагая сбалансированный взгляд на ограничения LRM
Что делать?
Авторы предлагаю рекомендации для будущих исследований – требования к оценке LRM:
-Чёткое разделение тестов на:
- Генерацию алгоритмов
- Исполнение длинных последовательностей
- Решение незнакомых задач Контроль лимитов платформ (токены, контекст)
- Верификация решаемости задач до тестирования моделей