Stepfun выпустил открытый исходный код модели Step-3.5-Flash

Step-3.5-Flash — мощный инструмент для быстрых вычислений и сложных задач, требующих агентных рабочих процессов.

Stepfun выпустил открытый исходный код модели Step-3.5-Flash

Ключевые особенности:

— Sparse MoE Architecture: модель включает 196 миллиардов параметров, но только около 11 миллиардов из них активно используются для обработки каждого токена. Это делает её очень эффективной.

  • MTP-3 (Multi-Token Prediction): прогнозирует сразу три токена, что позволяет достичь рекордных 350 операций в секунду при обработке задач с большим количеством кода.
  • Гибкое внимание (Hybrid Attention): сочетание двух подходов, что позволяет обрабатывать большие объемы данных (до 256K токенов) с низкими вычислительными затратами.

— Параллельная обработка: значительно увеличивает производительность в многоступенчатых рассуждениях и сложном поиске.

Модель идеально подходит для агентов, эффективно справляясь с задачами, требующими деления на этапы и совместной работы в облачных системах, при этом оптимизирована для локальных систем и работает на мощных устройствах, таких как NVIDIA DGX Spark, Apple M3/M4 Max и AMD AI Max+ 395.

Тесты показывают, что модель конкурирует с ведущими закрытыми решениями в области математики и программирования, что делает её отличным выбором для автономных систем, где она может служить «вторым пилотом».

Начать дискуссию