Взлет OpenClaw как следствие DeepSeek и масштабируемость RL сред

Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.

Объясню:

  • дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
  • затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
  • это привело к Opus 4.5, который исключительно благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.

Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.

Или совсем простыми словами: скорость «поумнения» ИИ удвоилась за год (в самом консервативном случае, в реальности тут экспонента)

Подписывайтесь на Telegram e/acc.

Начать дискуссию