Apple: современные LLM не способны рассуждать

Серьезный вердикт от Apple, который еще громче звучит с учетом того, что у Apple нет своих LLM. Расскажу, на основе чего Apple пришли к такому выводу (может, они тоже хайпуют?), что об этом думают в сообществе, и что с этим делать (если это так).

🔥 Еще больше интересного в моем канале продуктовые штучки

Что обнаружил Apple?

Исследование, проведённое специалистами Apple, поставило под сомнение способность современных искусственных интеллектов (ИИ) действительно рассуждать, несмотря на громкие заявления о прогрессе в этой области.

Вместо истинного рассуждения, ИИ-модели лишь имитируют мышление, опираясь на запомненные паттерны и шаблоны, а не на способность самостоятельно анализировать и решать новые задачи

В ходе экспериментов исследователи из Apple тестировали крупные языковые модели (LLM), а также специализированные модели рассуждений (LRM), включая продукты OpenAI, DeepSeek, Claude и Gemini.

Моделям предлагали решать логические головоломки, такие как «Ханойская башня», «Переправа через реку» и другие, с постепенно возрастающей сложностью.

Результаты показали, что на простых и средних уровнях сложности модели справлялись с задачами, но как только сложность переходила определённый порог, их производительность резко падала, вплоть до полного отказа решать задачу

Ключевые выводы исследования

ИИ не рассуждает, а имитирует мышление: модели не обладают способностью к обобщённому решению задач, а лишь воспроизводят запомненные последовательности действий, которые встречались в обучающих данных

Чувствительность к формулировке вопроса: даже незначительные изменения в формулировке запроса приводят к существенному изменению ответа модели, что говорит о её неустойчивости и зависимости от конкретных паттернов.

Коллапс точности при росте сложности: при увеличении сложности задач производительность моделей не просто снижается, а резко обрушивается до нуля, что свидетельствует о фундаментальных ограничениях текущих архитектур ИИ

Проблемы с обобщением: современные LRM не способны развить обобщаемые навыки решения задач и не могут адаптироваться к незнакомым условиям или новым типам проблем

Таким образом, исследование Apple подтверждает, что даже самые продвинутые «рассуждающие» ИИ-модели на деле не обладают настоящей способностью к рассуждению и не могут считаться искусственным общим интеллектом (AGI).

Они лишь имитируют мышление, опираясь на запомненные паттерны, и не способны к самостоятельному решению новых задач за пределами известных им шаблонов.

Как должно выглядеть реальное размышление ИИ?

Логическое рассуждение: Настоящее понимание предполагает способность выделять суть задачи, отбрасывать нерелевантные детали и строить независимые логические цепочки для решения новых задач Устойчивость к изменениям: Человек (или ИИ с реальным пониманием) способен решать задачи независимо от незначительных изменений в формулировке или добавлении лишней информации Обобщение и адаптация: Реальное понимание позволяет применять знания и логику к новым, незнакомым ситуациям, а не только к тем, что встречались в обучающих данных

Что делать?

Необходимы новые архитектуры. Apple указывает, что для создания настоящего ИИ, способного рассуждать, нужны принципиально новые подходы, например, нейросимволические методы, которые объединяют нейронные сети с традиционными символическими системами рассуждений

Как отнеслись к исследованию Apple в профессиональном сообществе?

Особенно с учетом того, что у Apple нет своих ИИ моделей

Публичные оценки известных специалистов по поводу исследования Apple о том, что ИИ-модели создают лишь иллюзию мышления, действительно появились, но они преимущественно представлены в виде обсуждений в профессиональных и технических сообществах, а не официальных заявлений крупных экспертов.

В целом исследование вызвало широкое обсуждение в соцсетях и среди специалистов по искусственному интеллекту, где отмечалось, что результаты Apple поднимают важные вопросы о границах современных моделей, но не все согласны с категоричностью выводов о полной неспособности к рассуждению.

Так, разработчик GitHub Шон Годеке в соцсетях прокомментировал, что порог сложности задач, который использовали исследователи Apple, ещё не доказывает неспособность моделей к рассуждению. В своих тестах он заметил, что модели иногда сознательно «отказываются» решать слишком длинные задачи, считая их неприоритетными, и что головоломки — не самая важная область применения ИИ для большинства пользователей.

Публичных комментариев от ведущих учёных в области ИИ (например, Яна Лекуна, Джеффри Хинтона или Демиса Хассабиса) на момент публикации исследования не зафиксировано в открытых источниках.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

2
1 комментарий