Что такое нейросеть Kandinsky 2.1 и как его использовать?

Сбербанк представил свою последнюю разработку - обновленную версию нейросети Kandinsky 2.1, способную генерировать уникальные изображения на основе текстовых запросов.

Основным преимуществом этого сервиса является его поддержка русского языка. Теперь пользователи могут описывать желаемое изображение, указывать желаемую стилистику и уточнять детали на родном языке.

В отличие от других подобных сервисов, Kandinsky 2.1 успешно распознает и учитывает русскоязычные запросы, что влияет на качество генерируемых картинок.

Эта нейросеть вызывает особый интерес по нескольким причинам. Во-первых, она демонстрирует высокую производительность и точность в выполнении задач.

Благодаря передовым алгоритмам и обучению на больших объемах данных, Kandinsky 2.1 способна создавать изображения, отвечающие требованиям пользователей.

Во-вторых, Kandinsky 2.1 превосходит своего главного конкурента в данной области. Сравнительные тесты показывают, что нейросеть Сбербанка опережает другие аналогичные системы по точности распознавания и соответствию запросам, особенно в контексте русского языка.

Это делает сервис особенно привлекательным для русскоязычных пользователей, которым требуется более точная и адаптированная генерация изображений.

Kandinsky 2.1 - инновационная разработка от Сбербанка, которая открывает новые возможности в сфере генерации изображений.

С ее помощью пользователи могут получать уникальные и качественные визуальные материалы, полностью соответствующие их потребностям и предпочтениям.

Что собой представляет Kandinsky 2.1

Летом 2022 года Сбербанк представил новое поколение своей нейросети Kandinsky 2.1, предназначенной для генерации картинок. Основательные улучшения были внесены в модель, которая была обучена на огромном наборе из 170 миллионов связок «текст-изображение».

Kandinsky 2.1 содержит 3,3 миллиарда параметров, в то время как предыдущая версия Kandinsky 2.0 имела всего 2 миллиарда параметров. Более подробную информацию о технических аспектах можно найти в блоге компании на популярном ресурсе «Хабре».

Принцип работы этой нейросети не сильно отличается от конкурентов: она создает изображения в различных стилях на основе текстовых запросов.

Однако разработчики Kandinsky гордятся тем, что их сервис поддерживает более 100 языков, включая русский, что не может похвастаться англоязычный Midjourney или Dall-e 2.

Это действительно выделяет этот сервис на фоне других аналогичных, для использования которых российским пользователям требуется знание английского языка или использование переводчика.

Нейросеть от Сбербанка предлагает четыре основных режима работы:

  • Генерация по тексту: это стандартная функция, где пользователь пишет текстовый запрос, и нейросеть создает изображение на основе этого запроса.
  • Смешивание изображений: здесь можно комбинировать две картинки и увидеть результат микса, созданного нейросетью.
  • Вариации изображений: позволяет добавить готовую картинку или фотографию, а затем задать определенную стилистику, чтобы получить новое изображение.
  • Дорисовка: также известная как outpainting. В этом режиме можно взять фото или картинку и попросить нейросеть дополнить ее, дорисовав оставшиеся за кадром детали.

Новое поколение Kandinsky 2.1 от Сбербанка открывает перед пользователями множество возможностей в области генерации изображений.

Благодаря этой нейросети можно получить уникальные и качественные визуальные материалы, которые полностью соответствуют потребностям и предпочтениям пользователей.

Большой объем обучающих данных и улучшенная модель Kandinsky 2.1 позволяют достичь высокой точности и реалистичности генерируемых изображений.

Где попробовать нейросеть Kandinsky 2.1

Есть несколько способов использования нейросети Kandinsky:

  • Сайт fusionbrain.ai: это тестовый веб-сайт, предоставляемый командой "Кандинского". Здесь вы можете генерировать изображения на основе текстовых запросов и использовать режим дорисовки.
  • Официальный телеграм-бот: в нем доступны все четыре режима генерации изображений. Вы можете взаимодействовать с нейросетью прямо в Telegram и получить желаемые результаты.
  • Сайт Rudalle: это имя первой версии нейросети Сбербанка, разработанной для генерации картинок. Вы можете попробовать эту версию, хотя она может быть менее продвинутой по сравнению с последними обновлениями.
  • Навык "Включи художника" в голосовом помощнике "Салют" от Сбера: этот навык позволяет вам использовать нейросеть Kandinsky через голосового помощника "Салют" от Сбербанка. Вы можете диктовать текстовые запросы и получать сгенерированные изображения.

Важно отметить, что во всех этих случаях нейросеть может иногда работать с ошибками из-за большой нагрузки на сервис.

Команда Сбербанка непрерывно работает над улучшением нейросети и исправлением возможных проблем, чтобы обеспечить более стабильное и надежное использование для пользователей.

Как генерировать картинки в Kandinsky 2.1

Я опробовал два способа использования нейросети Kandinsky: телеграм-бот и платформу fusionbrain.ai. fusionbrain.ai является полноценным веб-сайтом для генерации картинок.

На сайте есть область, где появляется сгенерированное изображение, текстовое поле для ввода запроса и выбор основных стилей.

Особенностью области генерации является фиолетовый квадрат, который представляет собой область, где происходит генерация изображения. Размеры этой области можно изменять. Эта функция не особенно полезна при стандартной генерации по тексту, но она полезна при других режимах работы.

В настоящее время доступно более 20 стилей. Среди них есть привычные стили, такие как аниме или детальное фото, а также новые стили, которые ранее не были доступны в нейросетевых сервисах, например, советские мультфильмы или хохлома.

В англоязычных приложениях часто возникают проблемы с генерацией подобных стилей, так как модели не обучены на таких типах изображений.

Вот полный список доступных стилей:

  • Аниме.
  • Детальное фото.
  • Киберпанк.
  • Кандинский.
  • Айвазовский.
  • Малевич.
  • Пикассо.
  • Гончарова.
  • Классицизм.
  • Ренессанс.
  • Картина маслом.
  • Рисунок карандашом.
  • Цифровая живопись.
  • Средневековый стиль.
  • Советский мультфильм.
  • 3D-рендер.
  • Мультфильм.
  • Студийное фото.
  • Портретное фото.
  • Мозаика.
  • Иконопись.
  • Хохлома.
  • Новый год.

Большинство стилей работают хорошо, но некоторые из "фирменных" стилей не совсем точно воспроизводятся. Создание советского мультфильма или хохломы не всегда удается достичь желаемого результата.

Однако, если нужной стилистики нет в списке, можно самостоятельно добавить ее в текстовый запрос, оставив галочку у пункта "Без стиля".

В разрешении 768 × 768 точек генерируются все изображения на платформе. Хотя существуют более качественные методы рисования с использованием современных нейросетей, более высокое разрешение в настоящее время недоступно.

Интересной функцией является возможность редактирования уже сгенерированного изображения.

Пользователи могут использовать инструмент "ластик" на готовой картинке, чтобы закрасить и изменить определенную часть. Затем можно просто нажать кнопку "Создать" и получить обновленный результат.

Я сам несколько раз экспериментировал с заменой персонажа в красном пальто на улице киберпанковой Москвы. Нейросеть работала очень точно по контуру и не искажала остальные элементы изображения.

Это действительно полезный инструмент, которого часто не хватает в других сервисах.

Еще одним полезным инструментом является функция дорисовки, которая также отсутствует во многих других сервисах.

Работает она следующим образом: вы можете сгенерировать или загрузить изображение, а затем увеличить его так, чтобы область для генерации была больше самого изображения.

Затем вы можете добавить текстовый запрос или выбрать стиль, и нейросеть будто дорисовывает детали к изображению.

Я попробовал этот режим на примере Шрека, переосмыслив его в киберпанк-стиле. Сервис довольно хорошо дополнил зеленое тело огра, сохраняя его особенности и детали одежды.

Однако лес на фоне оригинального кадра оказался проблемой, выделяясь слишком сильно на фоне типичного киберпанк-города. Это является одним из ограничений, с которыми иногда сталкиваются пользователи при работе с сервисом.

Самая популярная нейросеть 2023 года. ChatGPT-бот в Telegram предоставляет простой и бесплатный способ взаимодействия с ИИ, без необходимости регистрации, использования VPN и дополнительных номеров - ССЫЛКА.

Этот бот отличается от других тем, что не требует оплаты за использование и может быть использован в любом количестве - пользуйтесь на здоровье.

0
1 комментарий
Мария Подлесных

Я много читала и видела в результатах других ,что с руками у НС большая проблема)) Ну не умеют они их рисовать. А сейчас своими глазами убедилась!

Ответить
Развернуть ветку
-2 комментариев
Раскрывать всегда