Как усиливание «внутренних маркеров диалога» может улучшить точность LLM в два раза ✔️

Интересное исследование от Google рассказывает, как даже такие мелочи, как слова типа «Oh» или «Wait», могут значительно улучшить производительность языковых моделей на сложных задачах. Кто бы мог подумать, что внутренняя симуляция диалога между различными «голосами» модели может так повлиять на её способности? Но это реально работает. В статье говорится, что RL (Reinforcement Learning) не просто помогает моделям думать быстрее, а учит их думать коллективно. Представьте, что у модели несколько внутренних голосов, которые ведут между собой диалог. Они задают вопросы, отвечают друг другу, критикуют и высказывают сомнения. И именно этот внутренний диалог и есть ризонинг (или «логическое рассуждение») модели. Как это проверили? Для эксперимента Google использовали sparse autoencoder. Они нашли один нейронный признак, который отвечает за удивление или смену точки зрения. Это тот момент, когда модель в процессе рассуждения начинает думать: «Ага! Понял!». Для этого использовались такие фразы, как «Oh» или «Wait», которые обозначают переход к новому пониманию.

Далее они усилили этот признак и проверили, как это влияет на точность модели. Что получилось? •обычная модель без усиленных маркеров давала 27,1% точности на задачах по комбинаторной арифметике. •модель с усилением маркера «внутреннего диалога» показала 54,8% точности. В два раза больше. •усиливая другие признаки, разница была не такой впечатляющей. 👉Итак, LLM ещё изучены очень мало, и мы даже не подозреваем, сколько всего скрыто внутри их работы. Попробуйте в промпте добавить несколько таких слов, возможно, это даст какие либо результаты! #нейросети #промпты #llm #исследование #google

Алексей Прохоров (МАХ: @alproailife)
директор по развитию технологий искусственного интеллекта и роботизации
1
Начать дискуссию