Взлет OpenClaw как следствие DeepSeek и масштабируемость RL сред
Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.
Объясню:
- дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
- это привело к Opus 4.5, который исключительно благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.
Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.
Или совсем простыми словами: скорость «поумнения» ИИ удвоилась за год (в самом консервативном случае, в реальности тут экспонента)
Подписывайтесь на Telegram e/acc.
Начать дискуссию