«Сбер» выложил открытый токенизатор видео для ИИ-моделей — он «позволяет не зависеть» от зарубежных технологий в создании нейросетей для генерации роликов

В тестах, по заявлениям компании, он превосходит модели Wan 2.2 и Hunyuan Video 1.5.

Подразделение Kandinsky выложило в открытый доступ семейство токенизаторов KVAE-2.0, на базе которых можно создавать модели для генерации изображений и видео. Они сжимают визуальные данные так, чтобы нейросетям было проще их обрабатывать.
В «Сбере» KVAE-2.0 сравнили с токенизаторами внутри китайских нейросетей Hunyuan Video и Wan 2.2 от Alibaba. По словам компании, KVAE-2.0 лучше восстанавливает оригинальное видео, сохраняет текст и лица персонажей. Её также дополнительно обучили работе с надписями на русском языке, чего не умеет, например, последняя модель Seedance 2.0 от ByteDance.

Руководитель проекта Kandinsky Денис Димитров объяснил, что решение позволит стартапам обучать модели для генерации видео с нуля «в разы быстрее и дешевле» и «не зависеть от зарубежных токенизаторов».
Код и веса KVAE-2.0 выложили на GitHub и Hugging Face под лицензией MIT, которая разрешает использование в исследовательских и коммерческих проектах.

Результат восстановления ролика с помощью токенизатора внутри Hunyuan 1.5

Результат K-VAE 2.0