«Сбер» выложил открытый токенизатор видео для ИИ-моделей — он «позволяет не зависеть» от зарубежных технологий в создании нейросетей для генерации роликов

В тестах, по заявлениям компании, он превосходит модели Wan 2.2 и Hunyuan Video 1.5.

Сравнение, как  KVAE-2.0 и китайские HunyuanVideo 1.5, Wan 2.1 восстанавливают кадры после сжатия. Wan исказила черты лица сильнее всех. Здесь и далее источник: Kandinsky
Сравнение, как KVAE-2.0 и китайские HunyuanVideo 1.5, Wan 2.1 восстанавливают кадры после сжатия. Wan исказила черты лица сильнее всех. Здесь и далее источник: Kandinsky
  • Подразделение Kandinsky выложило в открытый доступ семейство токенизаторов KVAE-2.0, на базе которых можно создавать модели для генерации изображений и видео. Они сжимают визуальные данные так, чтобы нейросетям было проще их обрабатывать.

  • В «Сбере» KVAE-2.0 сравнили с токенизаторами внутри китайских нейросетей Hunyuan Video и Wan 2.2 от Alibaba. По словам компании, KVAE-2.0 лучше восстанавливает оригинальное видео, сохраняет текст и лица персонажей. Её также дополнительно обучили работе с надписями на русском языке, чего не умеет, например, последняя модель Seedance 2.0 от ByteDance.

Сравнение моделей формата 4x8x8 в 720p
Сравнение моделей формата 4x8x8 в 720p
Сравнение моделей формата 4x16x16 в 720p
Сравнение моделей формата 4x16x16 в 720p
  • Руководитель проекта Kandinsky Денис Димитров объяснил, что решение позволит стартапам обучать модели для генерации видео с нуля «в разы быстрее и дешевле» и «не зависеть от зарубежных токенизаторов».

  • Код и веса KVAE-2.0 выложили на GitHub и Hugging Face под лицензией MIT, которая разрешает использование в исследовательских и коммерческих проектах.
Результат восстановления ролика с помощью токенизатора внутри Hunyuan 1.5
Результат K-VAE 2.0
23
12
3
2