Пост 2083239 в блоге Stepan Gershuni на vc.ru

Потолок "интеллекта" у LLM был всегда неизбежен. Нейронные сети, по Суцкеверу, это способ компрессии информации. Информация в интернете изначально ограничена и любая из современных LLM обучены, условно, на всем доступном человечеству знании. По "утёкшим" бенчмаркам grok-4 видно, что претрейн еще работает, но вряд ли надолго.

Следующим этапом развития неизбежно будет RL, обучение на основе проб и ошибок самого агента. Причем, изначально это могут быть внешние агентские системы, какие-то там лупы на питоне, но со временем, ради эффективности, любая внешняя логика "переупакуется" обратно в активации нейронов. Ибо это самый быстрый способ обработки информации.

Я верю, что агентский RL из эзотерических областей математики придет в массовые задачи бизнеса, управления, инженерии, науки, персональной рутины. Для этого сегодня создаются среды для симуляции такого поведения, как для роботов, так и для софта. Накопление данных займет время, но результат того стоит. Из обучения на тексте мы переходим к обучению на интерактивном взаимодействии.

Подписывайтесь на Telegram e/acc.