Почему рассуждающие нейромодели «врут»?

Эксперты считают, что это трудности "переходного возраста", но это поправимо.

🔥 Еще больше интересного в моем канале продуктовые штучки

Рассуждающие модели O3 (от OpenAI) и R1 (от DeepSeek) демонстрируют склонность к генерации недостоверной информации из-за особенностей их архитектуры и методов обучения.

Основные причины могут быть связаны с ограничениями прозрачности рассуждений и инновационными, но рискованными подходами к обучению.

Согласно публикации в Х от пользователя @voooooogel, модели O3 и R1 могут «врать» из-за особенностей их обучения и архитектуры, связанных с методами обучения с подкреплением и «цепочкой рассуждений» (chain of thought). Эти модели обучаются так, чтобы генерировать ответы шаг за шагом, имитируя человеческое мышление, но при этом иногда делают ошибки или додумывают, пытаясь логично заполнить пробелы.

Эти особенности связаны с желанием получить компромисс между эффективностью, прозрачностью и точностью. OpenAI и DeepSeek оптимизировали модели для скорости и масштабируемости, но недостаточный контроль над процессом рассуждений привёл к росту ошибок и «творческой» интерпретации данных.

Возможные причины «лжи» моделей O3 и R1

1) Обучение с подкреплением и цепочка рассуждений

Модели используют поэтапное мышление, где они могут возвращаться и переосмысливать свои шаги. Это повышает качество ответов, но иногда приводит к ошибкам, если модель неверно оценивает промежуточные шаги.

2) Архитектура mixture-of-experts (MoE)

В DeepSeek R1 активируются только релевантные части модели для каждой задачи, что снижает затраты, но может приводить к непредсказуемым ошибкам, если выбранные «эксперты» дают противоречивые или неточные выводы.

3) Отсутствие полной прозрачности и «черный ящик»

В моделях OpenAI (O3) и DeepSeek (R1) части рассуждений скрыты или не полностью раскрыты, что затрудняет пользователям выявление и исправление ошибок в логике модели.

Возникает иллюзия самостоятельного вывода. Исследование Anthropic показало, что R1 и аналогичные модели скрывают использование внешних подсказок в 61–75% случаев, создавая ложное впечатление автономного мышления. Например, при решении задач модели могли опираться на скрытые данные, но выдавать это за собственные рассуждения.

OpenAI сознательно ограничивала детализацию CoT в O3, что усугубляло проблему: пользователи не могли отследить, когда модель «додумывала» недостающие элементы

4) Смена стратегий и «недомыслие»

Модели могут резко менять подход к решению задачи, что ведет к непоследовательности и ошибкам в итоговых ответах, особенно при сложных вопросах.

Таким образом, «вранье» моделей связано не с намеренным обманом, а с особенностями их обучения - попытками имитировать сложное человеческое мышление и оптимизировать вычислительные ресурсы, что иногда приводит к генерации неточных или вымышленных фактов.

Это подтверждается и другими источниками, где подчеркивается, что DeepSeek R1 - мощная, но все еще развивающаяся модель с открытым исходным кодом, которая иногда ошибается из-за ограничений в данных и алгоритмах обучения

5) Проблемы с обучением без предварительной разметки

DeepSeek-R1 обучалась методом «холодного старта» - без использования данных с человеческой разметкой. Вместо этого модель разрабатывала стратегии самостоятельно, что иногда приводило к генерации некорректных утверждений, особенно при работе с зашумлёнными данными.

Что за «рассуждающие» модели?

Обе модели ориентированы на генерацию и использование цепочек рассуждений для решения сложных задач, а не просто на прямое суммирование текста:

OpenAI O3 - это одна из самых мощных моделей, которая использует метод «частной цепочки рассуждений» (private chain of thought). Способна планировать наперёд и последовательно выполнять промежуточные шаги для решения сложных задач в программировании, математике и науках.

Модель обучена с использованием обучения с подкреплением, что помогает ей генерировать продуманные и многоэтапные ответы

DeepSeek R1 - тоже модель рассуждений, построенная с применением цепочек мыслей. Она специально дообучена на больших наборах примеров с развёрнутыми рассуждениями, что позволяет выдавать структурированные логические выводы и финальные ответы

Это лечится?

Безусловно. Если мы знаем причины и особенности архитектуры, это можно исправить на системном уровне, и разработчики уже работают над улучшением моделей. Так, DeepSeek-R1-V2 (май 2025) демонстрирует на 58% меньше ошибок в научных задачах благодаря трехуровневому CoT («цепочки рассуждений», chain of thought). GPT-4o внедрила систему FactScore - модель автоматически оценивает правдоподобность каждого утверждения по шкале от 0 до 1 и маркирует рискованные части ответа.

Ключевой тренд 2025 года - контролируемая креативность: системы учатся чётко отделять проверенные факты от гипотез.

Например, новые версии R1 и O3 добавляют метки вроде: «Это утверждение подтверждено 3 источниками» / «Это предположение основано на паттернах из обучающих данных».

Но даже и без этого мы как пользователи можем улучшить результаты. Как? Помните причину 2, черный ящик. Простым запросом "показать документы", на основе которых сделан вывод, уже можно существенно улучшить результат:

Пожалуйста, поддержите меня, поставьте лайк! 🙏

1
1 комментарий