«Сбер» представил модели Kandinsky 5.0 для генерации изображений и видео
Они доступны в GigaChat.
Генерация по запросу «Нарисуй белого кота в очках, который сидит за ноутбуком и чашкой кофе с умным видом», стиль «4K». Генерация vc.ru
- Пользователям доступны две модели линейки Kandinsky 5.0: универсальная Image Lite для генерации HD-изображений и Video Pro, которая может генерировать пятисекундные SD-ролики по текстовому запросу или стартовому кадру.
- Обе «ориентируются в российском культурном контексте», хорошо понимают запросы на русском и английском языке и могут создавать надписи на кириллице и латинице, отметили в «Сбере».
- Kandinsky 5.0 обучили почти на 1 млрд изображений и 300 млн видео. Разработчики фокусировались на «эстетичности и качестве генерации». Для этого на финальных этапах обучения использовали датасет «сверхкачественных» изображений и видео, отобранных дизайнерами, художниками и арт-директорами.
- Модели Kandinsky 5.0 Image Lite и Video Pro доступны на сайте, в приложении GigaChat на Android, в мессенджерах Telegram и Max.
Результат по запросу «Нарисуй пиццу, на которой написано “пицца” на русском и английском», стиль «Пикассо». Генерация vc.ru
В некоторых из предложенных вариантов модель со словами не справилась. Генерация vc.ru
Видео по картинке и запросу «Буквы меняются местами в хаотичном порядке». Генерация vc.ru
- Модели Kandinsky 5.0 (Image Lite, Video Pro и облегчённую версию Video Lite) компания выложила в открытый доступ на Hugging Face, GitVerse и GitHub.
- Также «Сбер» опубликовал в открытом доступе «свою самую мощную» модель GigaChat Ultra Preview (GitHub, HuggingFace, GitVerse), «самую компактную и быструю MoE-модель» GigaChat Lightning (GitHub, Hugging Face, GitVerse) и набор из пяти моделей для автоматического распознавания речи на русском языке GigaAM-v3 (GitHub, HuggingFace, GitVerse).
- В открытом доступе теперь есть и автокодировщики K-VAE 1.0 (GitHub, Hugging Face). В компании пояснили, что эти технологии «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Код и веса моделей доступны по лицензии MIT, в том числе для коммерческих целей.
58 комментариев