Взлет OpenClaw как следствие DeepSeek и масштабируемость RL сред

Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.

Объясню:

дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
это привело к Opus 4.5, который исключительно благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.

Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.

Или совсем простыми словами: скорость «поумнения» ИИ удвоилась за год (в самом консервативном случае, в реальности тут экспонента)

Подписывайтесь на Telegram e/acc.