Запасаемся попкорном
Вышел ответ на обвинения со стороны Apple в отсутствии у LLM рассуждающих способностей, и по слухам – ответ написан с участием самой LLM (Anthropic). Спор выходит далеко за пределы обсуждения методологии, и напрямую связан с вопросом: как быстро мы получим суперинтеллект?
🔥 Еще больше интересного в моем канале продуктовые штучки
С чем не согласны?
Основные возражения можно сгруппировать по следующим направлениям:
Методологические недостатки исследования Apple
1. Игнорирование технических ограничений моделей
Критики отмечают, что Apple не учла жёсткие лимиты на длину выходных данных (токены) в LRM (Large Reasoning Model, большая модель рассуждений). Например, в тесте «Ханойская башня» модели явно прерывали решение из-за ограничений токенов, а не из-за неспособности к рассуждениям.
2. Невалидные тестовые сценарии
В некоторых задачах (например, River Crossing) использовались математически нерешаемые варианты, что приводило к искусственному занижению показателей. Модели правильно идентифицировали невозможность решения, но это считалось ошибкой.
3. Жёсткость критериев оценки
Автоматизированный скрипт Apple учитывал только полные пошаговые решения, игнорируя частичные ответы и стратегические паузы в «рассуждениях» моделей
Концептуальные возражения
4. Несоответствие метрик реальным возможностям
Критики подчёркивают, что тесты на классических головоломках (вроде Ханойской башни) не отражают практического применения LRM. Модели демонстрируют полезные рассуждения в менее структурированных задачах
5. Прогресс архитектур
Указывается на постоянное улучшение показателей LRM в стандартных бенчмарках. Например, Claude Opus 4 уже превосходит предыдущие версии в задачах, где Apple фиксировала коллапс
6. Антропоморфизм оценок
Некоторые исследователи считают некорректным требовать от моделей человекообразных «рассуждений». Эффективность решений важнее соответствия ожидаемым паттернам мышления
Выводы?
Фундаментальные ограничения текущих подходов
Трансформерные архитектуры достигли потолка в задачах, требующих абстрактного мышления. Даже модели с триллионами параметров остаются «продвинутыми системами автозаполнения»
Рост вычислительных ресурсов не решает проблему коллапса точности при увеличении сложности задач — модели демонстрируют «галлюцинации» в 78% случаев при работе с новыми головоломками
Необходимость смены парадигмы
Гибридные системы становятся приоритетным направлением. Только комбинация глубокого обучения с формальной логикой позволит преодолеть ограничения паттерн-матчинга
Пересмотр метрик оценки: вместо бинарной проверки правильности ответов требуется анализ семантической связности промежуточных шагов.
Роль государства и регуляции
Общий интеллект (AGI) невозможно создать без доступа к государственным суперкомпьютерам (типа Aurora) и массивам данных национального масштаба. Частные компании сталкиваются с юридическими и техническими барьерами при работе с гетерогенными данными.
Жёсткий регуляторный контроль станет неизбежным. Даже Илон Маск, известный своей антирегуляторной позицией, вынужден искать компромиссы с администрацией Трампа для реализации проектов вроде Grok
Переоценка временных горизонтов
Оптимистичные прогнозы о появлении AGI к 2029-2030 гг. несостоятельны. Большинство экспертов сдвигает ожидания на 2040-е годы
Этические вопросы выходят на первый план: 67% участников конференции NeurIPS 2025 назвали проблему «обратной морали» AGI главным вызовом десятилетия
Что делать?
Гибридные системы
В ответ на критику Apple часть сообщества предлагает комбинировать LLM с символьными методами. Например, нейросимволические архитектуры показывают лучшие результаты в задачах, требующих алгоритмической строгости.
Пересмотр метрик
Выдвигается идея разработки новых способов оценки «мышления» моделей, включая анализ семантической связности промежуточных шагов вместо бинарной проверки правильности.
Спор во многом сводится к определению самого понятия «рассуждение». Apple настаивает на необходимости строгого алгоритмического подхода, тогда как оппоненты выступают за прагматичную оценку полезности выводов моделей в реальных сценариях