Нейросеть Kandinsky для генерации картинок и видео

Обзор и подсказки для удобной работы.

Нейросеть Kandinsky для генерации картинок и видео

Kandinsky — это нейросеть от «Сбера» для генерации картинок, анимации и видео. По степени реалистичности и детализированности изображений она находится примерно на одном уровне с Midjourney и Stable Diffusion, которых часто называют лучшими ИИ в этой области. Однако у Kandinsky, в отличие от них, нет платных тарифов — можно генерировать бесконечное количество картинок и анимаций.

Содержание

Как устроен Kandinsky

Нейросеть работает в двух режимах: Kandinsky (картинки и анимация) и Kandinsky Video (видео). Чтобы сгенерировать контент, нужно составить промпт (текстовый запрос), то есть прописать ТЗ для искусственного интеллекта.

Например, «Нарисованный акварелью портрет девушки». При этом ИИ от «Сбера» понимает промпты более чем на 100 языках, в том числе на русском.

Источник: Kandinsky  
Источник: Kandinsky  

Отличие Kandinsky от многих конкурентов: ИИ можно пользоваться на разных платформах:

  • на сайте Fusion Brain;

  • на сайте ruDALL-E;

  • через чат-бота в Telegram;

  • через чат-бота в VK;

  • в приложении «СберБанк Онлайн»;

  • в виртуальном ассистенте в Android-приложении «Салют»;

  • через «Салют ТВ» по команде «Включи художника».

Интерфейс интуитивный, предусмотрены подсказки, а на сайте есть горячие клавиши.

Источник: Kandinsky

Шанс получить релевантную картинку в Kandinsky довольно высокий, иногда выше, чем в случае с другими нейросетями. Например, если в промпте сказано «чёрный кот в парике», нейросеть, скорее всего, создаст именно его, а не другого кота в шляпе из фольги (тру стори).

Но нужно быть честными: Kandinsky тоже ошибается. Например, на сайте Fusion Brain нейронка в какой-то момент начинает дублировать предыдущие генерации. Приходится перезагружать страницу или даже входить в кабинет заново.

Главное о генерации картинок

Kandinsky стал продолжением ruDALL-E — первой нейросети от «Сбера» для генерации изображений и анимации, вышедшей 2 ноября 2021 года.

  • Умеет создавать картинки с нуля и на основе готовых изображений: можно загрузить фото и получить его нарисованную версию. Или сделать микс из двух картинок. Спойлер: иногда исходник с картинкой очень похожи, а иногда — лишь отдалённо.
Источник: Kandinsky      
Источник: Kandinsky      

Промпт для картинки: «Портрет девушки блондинки с длинными волосами на фоне голубого неба. Крупный план, розовый воротник, естественный макияж, длинные сережки с жемчугом».

Слева: фото, которое мы дали нейросети. Справа: то, что Kandinsky выдал без промпта на основе фотографии.

Усложнили задачу и попросили Kandinsky сгенерировать картинку на основе его же предыдущего результата. 
Усложнили задачу и попросили Kandinsky сгенерировать картинку на основе его же предыдущего результата. 
  • В среднем на одну картинку у Kandinsky уходит 2 минуты. В чат-боте Telegram тоже, хотя там результат обещают «примерно за 10 секунд».

  • Нейросеть предлагает выбрать стиль изображения перед каждой генерацией. Всего их 17. Вероятность того, что нейросеть отрисует изображение в выбранном вами стиле, очень высокая. Но сбои — ещё они называются «галлюцинацией» ИИ — всё равно случаются. В этом случае нужно просто повторить генерацию.

Стили изображения в Kandinsky
Стили изображения в Kandinsky
  • Негативные промпты (то есть формулировки через отрицания) нейросеть тоже понимает. Особенно пригодятся, если надо убрать детали с уже сгенерированного контента. Другой вариант — ластик для удаления ненужных объектов.
  • На сайте нейросеть генерирует изображения с соотношением сторон 1:1, 16:9, 9:16, 3:2, 2:3. В телеграм-боте доступны только 1:1, 16:9 и 9:16. От соотношения зависит максимальное качество изображения. Например, при 1:1 нейронка автоматически генерирует картинку 1024×1024 px, а при 16:9 — 1024×576 px.
  • Стандартный формат для скачивания результатов — JPEG. Исключение — изображения, созданные в стиле «3D рендер», они загружаются в PNG.

Главное о работе с анимацией

  • Анимация в Kandinsky создаётся из нескольких сцен, максимальное количество — четыре. Длительность каждой сцены — 4 секунды.

  • Чем больше сцен, тем дольше генерация. На анимацию из четырёх сцен в среднем уходит 10 минут (хотя нейросеть обещает управиться за 6).

  • Соотношение сторон для анимации: 1:1, 9:16, 16:9. При соотношении 1:1 максимальное качество — 640×640 px.

  • Есть возможность выбрать направление камеры: зум или отдаление, панораму слева направо или снизу вверх и так далее.

  • Сцены можно менять местами.

  • Негативные промпты с анимациями не работают.

  • Скачать анимацию можно только в MP4.

Источник: Kandinsky 

Промпт 1 сцены: «Пустыня, 4k». Промпт 2 сцены: «Солнце, 4k».

Главное о генерации видео

Kandinsky Video — это первая модель по созданию видео в России, бета-версию которой представили 22 ноября 2023 года.

  • Максимальная длительность видео — 5 секунд.
  • Качество хуже, чем на картинках и в анимации.
  • Приблизительное время генерации — 4 минуты.
  • Соотношение сторон такое же, как и в анимации: 1:1, 9:16, 16:9.
  • Негативные промпты не поддерживаются.
Источник: Kandinsky  

Результат по промпту: «Корабль плывёт по морю».

Источник: Kandinsky 

Результат по промпту: «Рассвет 4K».

Инструкция: как генерировать картинки в Kandinsky

Добиться нужного результата с первого раза не так просто.

Например, одна из непростых задач для ИИ — создать изображение с двумя героями и ничего не перепутать. Обычно нейросети то дублируют одного и того же персонажа, то рисуют лишнего. Поэтому ниже — исчерпывающая инструкция, в которой тестируется генерация двух героев одновременно.

Итак, чтобы создать картинку, пользователю нужно:

1. Кликнуть на раздел «Картинки» и выбрать соотношение сторон. Допустим, 16:9.

Источник: Kandinsky 
Источник: Kandinsky 

2. Составить промпт. Чем больше деталей, тем выше вероятность получить релевантный результат. Но если не столь важна точность, можно дать волю Kandinsky — и он создаст картинку на свой вкус. Подробнее — в разделе «Как составлять промпты».

А запрос для генерации двух героев звучит так: «Супермен и Бэтмен сидят на скамейке и едят пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета».

Источник: Kandinsky 
Источник: Kandinsky 

3. Прописать негативный промпт и выбрать стиль изображения. Но это не обязательно — можно ничего не указывать. Когда всё готово — кликнуть на зелёную кнопку справа в окне промпта.

Ниже выбран стиль «Цифровая живопись», а вот в негативном промпте не прописано ничего.

Источник: Kandinsky

4. Оценить результат. Если результат не устраивает — нужно упрощать логику.

Например, в этом случае нейросеть хорошо справилась с задачей, только вместо Супермена и Бэтмена создала близнецов: от одного героя она взяла костюм, а от другого — шапочку.

Источник: Kandinsky 
Источник: Kandinsky 

5. Изменить промпт, если результат не устроил. А если не нравятся конкретные детали — прописать их в негативном промпте.

Запрос: «Один супермен и один Бэтмен сидят на скамейке и едят пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета». Ещё ради эксперимента в негативном промпте указана «Ночь».

Результат: Kandinsky создал день, заменил шапочку и лосины, но героев оставил прежними.

Источник: Kandinsky  
Источник: Kandinsky  

Попробовать ещё раз переписать обычный и негативный промпты — и так до тех пор, пока ИИ не сгенерирует релевантную картинку.

Ниже — пара скринов с попытками и запросами.

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Супермен в костюме Супермена и Бэтмен в костюме Бэтмена сидят на скамейке и едят пиццу, на фоне небоскребы, общий план, максимум деталей, яркие цвета».

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Супермен вдвоем с Бэтменом сидят на скамейке и едят пиццу, на фоне небоскребы, общий план, максимум деталей, яркие цвета».

6. Применить ластик, чтобы удалить ненужное. А затем — прописать в запросе, что сгенерировать на пустом месте. Появятся слои — чтобы их посмотреть, нужно кликнуть на иконку справа вверху.

Промпт, использованный ниже: «Бэтмен сидит на скамейке и ест пиццу, на фоне небоскрёбы, общий план, максимум деталей, яркие цвета».

Источник: Kandinsky

Сработало.

Источник: Kandinsky
Источник: Kandinsky

Осталось разобраться с шапочкой Супермена. Промпт: «Голова супермена».

Источник: Kandinsky 
Источник: Kandinsky 

И снова сработало.

Если нужен Супермен повеселее и без летающего объекта над головой — можно продолжать дальше.

Ну а если и так сойдёт — значит, и так сойдёт :)

Источник: Kandinsky  
Источник: Kandinsky  

Как генерировать анимацию в Kandinsky

Анимация в Kandinsky состоит из сцен, количество которых выбирает пользователь.

1. Кликнуть на «Видео» и выбрать модель «Анимация».

Источник: Kandinsky 
Источник: Kandinsky 

2. Составить промпт для каждой сцены и указать соотношение сторон. Если нужно — выбрать направление камеры. На примере внизу — панорама слева направо.

Когда всё готово — нажать на «Создать анимацию».

Источник: Kandinsky  
Источник: Kandinsky  

3. Отредактировать промпты или поменять сцены местами, если результат не устраивает.

Результат — ниже. Что удивило: Kandinsky понял, что в ролике должна быть одна и та же белка. Появляется она чаще, чем подразумевалось в запросе, и в некоторых сценах держит книгу, но в целом — результат релевантный.

Источник: Kandinsky

Инструкция: как генерировать видео

1. Кликнуть на «Видео» и выбрать модель «Видео».

Источник: Kandinsky
Источник: Kandinsky

2. Составить промпт, выбрать соотношение сторон и кликнуть на «Создать видео».

Промпт ниже: «Молодой парень в белой футболке, джинсах и бейсболке едет на скейте по городу, на фоне парк аттракционов, снято на плёнку, кинематографичное видео».

Источник: Kandinsky 
Источник: Kandinsky 

3. Оценить результат и, если нужно, переписать запрос. Отредактировать уже сгенерированное видео не получится.

Источник: Kandinsky  

Как составлять промпты

Если хочется создать определённую картинку, важно дать ИИ как можно больше данных.

  • Выносите самое важное в начало. Кто или что на картинке или видео → что герой делает или что происходит → детали. Правило не железное, но такая последовательность помогает ИИ сфокусироваться.
  • Не забывайте о деталях. Речь о фоне, времени дня, погоде, цветах, настроении, крупности плана, технических характеристиках фотоаппарата или стиля рисования и так далее. Не обязательно указывать всё, главное — дать нейросети понять, что должно получиться в итоге.
  • Упрощайте конструкции. Сложные варианты с деепричастными оборотами не нужны: чем проще формулировка, тем выше вероятность, что нейросеть считает запрос верно.
  • Избегайте метафор, пользуйтесь прямыми отсылками. Если указать художника или, допустим, фильм, искусственный интеллект сгенерирует картинку или ролик в этом стиле. Например, «Закат в стиле Малевича» или «Кот и собака в стиле „Криминального чтива“».
  • Подсматривайте чужие промпты. Часто это помогает понять логику ИИ и экономит время.

Что получится, если использовать примитивные промпты

Обычно чем подробнее запрос, тем красивее картинка. Однако Kandinsky умеет создавать симпатичные изображения даже без длинных промптов.

Поэтому если детали не так важны, достаточно ограничиться одним словом — и Kandinsky сгенерирует изображение на свой вкус.

К примеру, вот что сгенерировал Kandinsky по промпту «Лошадь».

Источник: Kandinsky  
Источник: Kandinsky  

А вот картинка по промпту «Машина».

Источник: Kandinsky  
Источник: Kandinsky  

Примеры сгенерированных картинок со сложными промптами

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Реалистичное фото, плёнка 35 мм, милая молодая девушка блондинка с длинными волосами ночью, большие глаза, пухлые губы, естественный макияж, белая майка, крупные серьги, ночные огни, портрет, максимум деталей». Стиль: «Детальное фото» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Мопс в короне сидит на троне, картина в стиле Веласкеса, максимум деталей». Стиль: нет (сгенерировано в чат-боте Telegram).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Закат в пустыне, максимальный реализм». Стиль: «Детальное фото» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Американский мотель ночью, неоновые огни, рядом машина mustang. кинематографичное реалистичное изображение». Стиль: нет (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Кот спит на диване, реализм, максимум деталей, неяркие цвета». Стиль: нет (сгенерировано в чат-боте Telegram).

Источник: Kandinsky  
Источник: Kandinsky  

Промпт: «Сочный бургер, картошка фри и бутылка колы на столе, яркие цвета, максимум деталей». Стиль: «Детальное фото» (сгенерировано в чат-боте Telegram).

Источник: Kandinsky  
Источник: Kandinsky  

Промпт: «Медвежонок в лесу днём, жизнерадостная картинка, яркие цвета». Стиль: «3D рендер» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Реалистичное фото, молодая девушка с длинными розовыми волосами улыбается, пирсинг в носу, белая футболка, крупные серьги, фон размыт, жизнерадостная картинка, портрет». Стиль: «Детальное фото» (сгенерировано в чат-боте Telegram).

Источник: Kandinsky
Источник: Kandinsky

Промпт: «Натюрморт: банан, груша, яблоко. Яркий красный и жёлтый цвет». Стиль: «Пикассо» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Бульдог идёт по ночному городу». Стиль: «Киберпанк» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Корабль, море, солнце». Стиль: «Рисунок карандашом» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky
Источник: Kandinsky

Промпт: «Человек сидит за столом и печатает на компьютере, на фоне плакаты с героями боевиков из 90-х, яркие цвета, общий план. Жизнерадостная картинка». Стиль: «Аниме» (сгенерировано в чат-боте Telegram).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Стол». Стиль: «3D рендер» (сгенерировано на сайте Fusion Brain).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Лес ночью в стиле хоррора, общий план, вдалеке идёт человек в клетчатой рубашке и шапке, его освещает свет фар от машины, тёмные цвета, светят звёзды». Стиль: нет (сгенерировано в чат-боте Telegram).

Примеры, когда Kandinsky ошибается

Ниже — три примера, когда генерация свернула не туда. Справедливости ради: даже когда Kandinsky сходит с ума, он всё равно генерирует картинки высокого качества. Так что иногда достаточно просто «подлатать» детали.

Источник: Kandinsky 
Источник: Kandinsky 

Промпт: «Нарисованная грустная лошадь в стиле Симпсонов сидит в парке и ест сэндвич, она одета в джинсы, красную футболку и коричневую бейсболку. Жизнерадостное изображение». Стиль: нет (сгенерировано в чат-боте Telegram).

Источник: Kandinsky  
Источник: Kandinsky  

Промпт, в котором должна была быть рыба: «Единорог, ленивец и рыба играют в карты за столом, стиль нуар, они освещены светом лампы, вокруг темно». Стиль: нет (сгенерировано в чат-боте Telegram).

Источник: Kandinsky 
Источник: Kandinsky 

Промпт, в котором не должно было быть пятой лапы: «Кот в шубе спит на диване, максимум деталей, реалистичное изображение». Стиль: «Классицизм» (сгенерировано на сайте Fusion Brain).

Выводы

  • Kandinsky — в первую очередь про красивые картинки. Даже если искусственный интеллект галлюцинирует, он всё равно создаёт качественные, детальные и реалистичные изображения.

  • Нейросеть смело конкурирует с Midjourney и Stable Diffusion, которых многие называют лучшими ИИ для генерации изображений.

  • Сервис полностью бесплатный. Правда, периодически сбоит.

  • А вот с видео ситуация обратная — качество роликов оставляет желать лучшего.

FAQ

Сохраняются ли генерации в истории?

На сайте нет: если пользователь забудет скачать картинку или ролик — они пропадут. При этом в чат-боте Telegram сохраняется всё.

На каком языке лучше писать промпты — русском или английском?

Kandinsky хорошо понимает запросы на обоих языках.

Что нельзя генерировать в Kandinsky?

Если коротко: Kandinsky отказывается генерировать контент, который нарушает законы страны пользователя и общеэтические нормы. Дисклеймер с запретами — это первое, что видит пользователь после регистрации.

Источник: Kandinsky 
Источник: Kandinsky 

Но временами Kandinsky путает безобидные промпты с «запрещёнкой». К примеру, он в первый раз отказался создавать картинку по запросу «Сочный бургер, картошка фри и бутылка колы на столе, яркие цвета, максимум деталей». Однако после отправки сообщения об ошибке и повторного введения промпта — сгенерировал её.

Источник: Kandinsky 
Источник: Kandinsky 

Хотите знать больше о нейросетях для создания видео? Читайте нашу подборку:

А вы пробовали Kandinsky? Если да, покажите результаты :)

22
Начать дискуссию