Русский Midjourney — AI Telegram Anatomy на vc.ru

Нейросеть Kandinsky 2.1 — это новая генеративная модель, разработанная и обученная исследователями Sber AI при поддержке ученых из Института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices.

Генерация изображения нейросетью Kandinsky 2.1

Kandinsky 2.1 способна создавать высококачественные изображения по текстовому описанию на естественном языке, а также смешивать несколько рисунков, изменять их по описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна.

Модель понимает запросы на 101 языке (в числе русский и английский) и умеет рисовать в различных стилях. Она использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подает его на вход основной генеративной модели.

Новая модель унаследовала веса предыдущей версии, обученной на одном миллиарде пар «текст — изображение», и была дополнительно обучена на 170 миллионах пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух миллионов пар качественных изображений, в который попали картинки с описаниями в таких традиционно сложных для нейросетей областях, как тексты и лица людей.

Я полагаю, что у каждого человека найдется работа для Kandinsky 2.1. Поэтому улучшенная модель, как и ее предшественница, доступна для всех: любой желающий может ее протестировать бесплатно.
Александр Ведяхин - первый заместитель председателя правления Сбербанка

Кандинский позволяет создавать изображения в высоком разрешении, включая лица и сложные объекты благодаря новой обученной модели автоэнкодера, которая используется в том числе в качестве декодера векторных представлений изображений. Благодаря этому новая модель содержит 3,3 миллиарда параметров вместо двух миллиардов в Kandinsky 2.0.

Kandinsky 2.1 доступна для использования:

на платформе Fusion Brain
в Telegram-боте

Согласно заявлению Сбера, Kandinsky 2.1 — мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов, она открывает колоссальные возможности как для бизнеса, так и для личного использования. Она может применяться в различных отраслях, в том числе в банковской сфере для создания персонализированных маркетинговых решений, ярких образов продуктов, привлечения и удержания внимания клиентов.

На данный момент нейросеть Кандинский 2.1 показывает очень хорошие результаты. Конечно, пока что они немного отстают от всем известной Midjourney, но это лишь вопрос времени. Основным преимуществом нейронной сети от Сбера является стоимость - нейросеть бесплатна и доступна для использования любому.

Больше сгенерированных изображений, экспериментов и фишек по работе с Kandinsky ищите в этом телеграм канале.