⚡1000 токенов в секунду — Сергей Пахандрин на vc.ru

OpenAI начали “тратить” свой многомиллиардный контракт с Cerebras

Неделю назад вышел GPT-5.3-Codex с 77.3% на Terminal-Bench, который помогал создавать сам себя. А вчера OpenAI выкатили его младшего брата - Codex-Spark. Уменьшенная версия, заточенная под одну цель: скорость.

И скорость тут не метафора. 1000+ токенов в секунду. В 15 раз быстрее полноразмерного Codex. Те же задачи на SWE-Bench Pro, которые старший брат решает за 15-17 минут, Spark щёлкает за 2-3. Time-to-first-token на 50% быстрее, overhead на каждый раунд-трип снижен на 80%. Они ещё и persistent WebSocket прикрутили, чтобы не тратить время на переподключения.

Под капотом - Cerebras Wafer Scale Engine 3. OpenAI подписали многомиллиардный контракт с Cerebras в январе, и через 4 недели уже первый продукт на этом железе в продакшене. Молния!

Terminal-Bench 2.0: 58.4% у Spark против 77.3% у полного Codex. Но при этом Spark на голову выше предыдущего GPT-5.1-Codex-mini (46.1%). Контекст 128K токенов, только текст.

Идея в том, что скорость меняет сам процесс работы. Когда модель отвечает мгновенно, ты остаёшься в потоке, делаешь быстрые итерации, не теряешь мысль (не успеваешь позевать). Не 15 минут тишины, а секунды. Другой ритм (красные глаза нам обеспечены, теперь не получится отрываться от монитора в ожидании когда же закончит агент).

Доступно пока в виде research preview и только для подписчиков ChatGPT Pro в Codex. API обещают скоро. Цены не объявлены.

Все детали в релизе: https://openai.com/index/introducing-gpt-5-3-codex-spark (тут есть видео сравнение 5.3 и 5.3 spark. Скорость просто невероятная)

Подписывайтесь на Telegram ИИволюция 👾.