Исследование Apple: «думающие» ИИ-модели создают только «иллюзию» рассуждений

Некоторые разработчики не согласились с выводами компании, у которой нет собственной модели «рассуждений».

Apple критикует традиционные бенчмарки нейросетей на базе математических задач — в них есть конкретный ответ, а способность «рассуждать» оценить сложно.
Исследователи проверили o1 и o3 от OpenAI, DeepSeek-R1, Claude 3.7 Sonnet и Gemini Flash Thinking в тестах на логику — например, головоломке Ханойская башня и задаче о переправе через реку.

В самых лёгких задачах они справлялись также или хуже моделей без режима «рассуждений» — «усложняли» алгоритм решения и ошибались. В примерах средней сложности «думающие» модели чаще давали верный ответ.
На самом сложном уровне при достижении «критического порога» они начинали использовать меньше «токенов размышлений», а потом вовсе «сдавались», даже если лимит токенов не исчерпан. Сценарий повторялся и когда им давали готовый алгоритм решения.

Исследователи считают, что модели только создают «иллюзию рассуждения», повторяя логические цепочки, которые они усвоили во время обучения. Для общего искусственного интеллекта (AGI) нужны «принципиально новые архитектуры».
Работа вызвала обсуждение в соцсетях. Порог сложности ещё не доказывает, что модели не могут «рассуждать», пишет программист GitHub Шон Годеке. В его собственных тестах модели с самого начала решали, что сотни перекладываний колец — слишком длинный алгоритм, «чтобы даже пытаться». К тому же головоломки — «неприоритетная область» для тех, кто использует ИИ-модели.
В октябре 2024 года исследователи из Apple опубликовали другую работу с критикой больших языковых моделей. На основе математических тестов они заключили, что нейросети не способны к «настоящим логическим рассуждениям».

19 мая 2025 года Bloomberg узнало, что Apple перестанет анонсировать новые функции до их выхода из-за задержки персонализированной и «умной» Siri на базе ИИ. Её представили на WWDC 2024, но так и не выпустили спустя год. Компания планирует отделить бренд Apple Intelligence от Siri в маркетинговых материалах.

Исследование Apple: «рассуждающие» ИИ-модели создают «иллюзию» мышления и «сдаются» в задачах на логику