Исследование Apple: «рассуждающие» ИИ-модели создают «иллюзию» мышления и «сдаются» в задачах на логику
Некоторые разработчики не согласились с выводами компании, у которой нет собственной модели «рассуждений».
- Apple критикует традиционные бенчмарки нейросетей на базе математических задач — в них есть конкретный ответ, а способность «рассуждать» оценить сложно.
- Исследователи проверили o1 и o3 от OpenAI, DeepSeek-R1, Claude 3.7 Sonnet и Gemini Flash Thinking в тестах на логику — например, головоломке Ханойская башня и задаче о переправе через реку.
Ханойской башня — головоломка в виде трёх стержней, на один из которых нанизаны кольца. За наименьшее число ходов нужно переместить все кольца на другой стержень, сохранив форму пирамиды. Источник: Kubiya Games
- В самых лёгких задачах они справлялись также или хуже моделей без режима «рассуждений» — «усложняли» алгоритм решения и ошибались. В примерах средней сложности «думающие» модели чаще давали верный ответ.
- На самом сложном уровне при достижении «критического порога» они начинали использовать меньше «токенов размышлений», а потом вовсе «сдавались», даже если лимит токенов не исчерпан. Сценарий повторялся и когда им давали готовый алгоритм решения.
Результаты моделей в разных головоломках. Источник: Apple
- Исследователи считают, что модели только создают «иллюзию рассуждения», повторяя логические цепочки, которые они усвоили во время обучения. Для общего искусственного интеллекта (AGI) нужны «принципиально новые архитектуры».
- Работа вызвала обсуждение в соцсетях. Порог сложности ещё не доказывает, что модели не могут «рассуждать», пишет программист GitHub Шон Годеке. В его собственных тестах модели с самого начала решали, что сотни перекладываний колец — слишком длинный алгоритм, «чтобы даже пытаться». К тому же головоломки — «неприоритетная область» для тех, кто использует ИИ-модели.
- В октябре 2024 года исследователи из Apple опубликовали другую работу с критикой больших языковых моделей. На основе математических тестов они заключили, что нейросети не способны к «настоящим логическим рассуждениям».
- 19 мая 2025 года Bloomberg узнало, что Apple перестанет анонсировать новые функции до их выхода из-за задержки персонализированной и «умной» Siri на базе ИИ. Её представили на WWDC 2024, но так и не выпустили спустя год. Компания планирует отделить бренд Apple Intelligence от Siri в маркетинговых материалах.
89 комментариев