Русский Midjourney

Нейросеть Kandinsky 2.1 — это новая генеративная модель, разработанная и обученная исследователями Sber AI при поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.

Генерация изображения нейросетью Kandinsky 2.1
Генерация изображения нейросетью Kandinsky 2.1

Kandinsky 2.1 способна создавать высококачественные изображения по текстовому описанию на естественном языке, а также смешивать несколько рисунков, изменять их по описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна.

Модель понимает запросы на 101 языке (в числе русский и английский) и умеет рисовать в различных стилях. Она использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели.

Генерация изображения нейросетью Kandinsky 2.1
Генерация изображения нейросетью Kandinsky 2.1

Новая модель унаследовала веса предыдущей версии, обученной на одном миллиарде пар «текст — изображение», и была дополнительно обучена на 170 миллионах пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух миллионов пар качественных изображений, в который попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей.

Я полагаю, что у каждого человека найдется работа для Kandinsky 2.1. Поэтому улучшенная модель, как и ее предшественница, доступна для всех: любой желающий может ее протестировать бесплатно.

Александр Ведяхин - первый заместитель председателя правления Сбербанка
Генерация изображения нейросетью Kandinsky 2.1
Генерация изображения нейросетью Kandinsky 2.1

Кандинский позволяет создавать изображения в высоком разрешении, включая лица и сложные объекты благодаря новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Благодаря этому новая модель содержит 3,3 миллиарда параметров вместо двух миллиардов в Kandinsky 2.0.

Kandinsky 2.1 доступна для использования:

Согласно заявлению Сбера, Kandinsky 2.1 — мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов, она открывает колоссальные возможности как для бизнеса, так и для личного использования. Она может применяться в различных отраслях, в том числе в банковской сфере для создания персонализированных маркетинговых решений, ярких образов продуктов, привлечения и удержания внимания клиентов.

Генерация изображения нейросетью Kandinsky 2.1
Генерация изображения нейросетью Kandinsky 2.1

На данный момент нейросеть Кандинский 2.1 показывает очень хорошие результаты. Конечно, пока что они немного отстают от всем известной Midjourney, но это лишь вопрос времени. Основным преимуществом нейронной сети от Сбера является стоимость - нейросеть бесплатна и доступна для использования любому.

Больше сгенерированных изображений, экспериментов и фишек по работе с Kandinsky ищите в этом телеграм канале.

33
8 комментариев

Сравнивали с TurboText, который вышел пару месяцев назад - в целом, не уступает Кандинскому. В художественных стилях хорош, прослеживается стиль Midjourney v4, но в фотореализм Кандинский справляется хуже. Можно запустить локально, но ресурсов требует больше, чем SD2.1, модель ещё не оптимизирована.

К тому же, если нейросеть "русская", то почему везде пихает флаги США, а русский флаг получишь только с нескольких попыток?) Как и многое русское не знает. Ответ очевиден, ведь датасетов и готовых решений для энкодеров в разы больше для англоязычного мира, но всё же интересно)

Ребята молодцы, успехов в развитии, конкуренция с каждой неделей всё выше)

3

Согласен полностью, вопросы есть, но результат хороший. Чтож... будем посмотреть :)

Все ждал момент, когда кто-нибудь из российских гигантов займется созданием нейронок. Надо будет затестить, может появился конкурент midjourney

1

Отечественный продукт, получается))

1

Даже и рядом не может стоять с Midjourney. Результаты крайне странные получаются при одинаковых запросах

1

Предполагаем, что запросы из Midjourney пока что не совсем подходят для нейросети Kandinsky, поэтому и результат получается не схожим

Картинки смотрятся хорошо!

1