Великий Кандинский, или как новая нейросеть Сбера научилась рисовать всё, что угодно (почти)

Когда читаешь новости про технологии, начинает казаться, что нейросети умеют всё: писать тексты, решать математические задачки и даже рисовать. Конечно, «вдохновение», то есть запросы на новые рисунки, «художники» с искусственным интеллектом получают от людей. До недавнего времени они не умели «писать картины» по запросам на русском языке.

Теперь, благодаря дообученной командами Сбера нейросети Kandinsky, названной в честь великого абстракциониста, можно формулировать очень сложные текстовые «заказы» на новые картинки

Запрос: «Холст картина маслом горы радуга инопланетный пейзаж бежевый фон», Kandinsky

Первую, базовую, модель ruDALL-E XL наши разработчики представили ещё полгода назад.

Кстати, вот тут мы подробно рассказываем про неё со всеми техническими нюансами.

Мы получили много положительных и, как это обычно бывает с такими масштабными историями, отрицательных отзывов. В первые недели релиза проектом «заинтересовались» порядка 800 тысяч уникальных пользователей (сейчас их уже больше 2 млн).

Параллельно с этим мы учили ещё одну, более мощную модель — уже с приставкой XXL. Её мы назвали в честь Василия Кандинского. Оценить её способности можно в

мобильном приложении «Салют» и умных устройствах Sber по запросу: «Салют, включи художника»
● ML Space SberCloud: https://sbercloud.ru/ru/datahub/rugpt3family/kandinsky
● Discord: https://discord.gg/xV7dNbT9NU
● Telegram-каналe главного разработчика ruDALLE: https://t.me/shonenkovAI

Теперь давайте узнаем, что у этой модели под капотом и расскажем её историю.

Запрос «Пестрая жизнь», ruDALL-E Kandinsky

Последние модели нейросетей можно условно разделить на две категории. Первые — мультимодальные и мультизадачные. Например, Flamingo или OFA. Они построены на базе сильных языковых моделей, умеют работать сразу и с текстом, и с изображениями, и с видео).

Вторая категория генерирует изображения. Самыми продвинутыми считаются GLIDE, DALL-E 2 от OpenAI и свежий Imagen от Google.

В их основе — диффузионный процесс, который обещает стать новым трендом визуального генеративного AI: результаты генерации действительно впечатляют и порождают предсказания о трансформации профессий художника и дизайнера в ближайшем будущем.

Запрос: «Корги, играющая на пламенеющем тромбоне»

Архитектура

Внутри модель XXL практически ничем не отличается от XL. Для первой и второй фаз обучения мы использовали разные наборы данных: на первом этапе взяли ту же выборку, что и для обучения предыдущей модели; основа второго этапа — русскоязычная часть датасета с порядка 170 млн пар изображений и описаний к ним.

Несмотря на то, что исходные данные были достаточно хорошего качества, мы разработали дополнительный набор фильтров, чтобы избавиться от изображений с водяными знаками, скриншотов презентаций, сайтов и т.д.

Фильтровали массив с помощью классификатора изображений с водяными знаками, которого мы обучили на открытых наборах данных, и модели ruCLIP. Ещё мы почистили описания изображений: убрали словосочетания, которые не несут никакого смысла, чтобы модели было проще искать закономерности. После фильтрации мы получили датасет размером 119 млн пар картинок и описаний. Примеры отфильтрованных изображений мы собрали чуть ниже.

Процесс обучения

На первом этапе модель Kandinsky училась около двух месяцев. Во время этой фазы обучения мы использовали датасет без фильтрации из 60 млн пар изображений и описаний к ним. Затем сократили массив до 28 млн пар. В него вошли наборы данных ConceptualCaptions, YFCC100m (описания мы перевели на русский системой машинного перевода), русская Википедия и другие.

Во время второй фазы обучения в датасет включили только нативные русскоязычные данные (без автоматического перевода с других языков): русская часть датасета laion5B, vist, flickr8, flickr30, ru_wiki, CelebA и др. Из них исключили изображения с водяными знаками и др. В общей сложности в набор данных для второй фазы вошло 119 млн пар картинок и описаний.

Запрос «Отпечатки рук художника», ruDALL-E Kandinsky

Качественная оценка

Василий Кандинский на определённом этапе творческого пути стал делить свои произведения на три типа (и такая разметка, надо думать, очень помогла искусствоведам): «импрессии», «импровизации» и «композиции». Главным критерием такой классификации, если не вдаваться в подробности, можно назвать связь изображенного с непосредственно воспринимаемой реальностью: чем тоньше и слабее эта связь, тем больше работа отдаляется от «импрессии», приближаясь к «композиции», которая представляет собой чистую абстракцию.

Мы позволили себе ещё более вольно трактовать эти типы (да простят нас искусствоведы) — и оценили, как модель справляется с генерацией реалистичных изображений («импрессий»); фантазийных образов, совмещающих в себе несколько концептов («импровизаций»); геометрических форм и пространственных структур («композиций»).

Мы сравнили обе модели и заметили вот что: наша модель весьма хорошо создаёт реалистичные изображения, качественно передаёт разные текстуры (шерсть лисы, горную породу, гладкую поверхность металла, бархатную обивку кресла), тени (под автомобилем, под диваном) и отражения (закатное небо на озерной глади, зелень на поверхности стекла автомобиля).

И хотя некоторые детали всё так же порой страдают (на морду оленя, например, лучше смотреть издалека и без очков), в большинстве случаев общая форма и отдельные элементы соответствуют объектам.

Что касается «импровизаций», комбинирующих в себе неожиданные образы, то здесь ситуация улучшилась сильно: сгенерированная кошка действительно умудряется одновременно сочетать в себе признаки как кошки, так и облака («воздушная», «тающая» белая шерсть); кот оказывается если и не на Луне, то все же на небесном теле — и может похвастаться адекватной формой; абстракция «темная энергия» обретает прекрасное воплощение в виде сияющей субстанции — либо в чёрной невесомости, либо в руках темного жреца. А Ждун сумел избавиться от созависимых отношений с авокадо.

Ждун с авокадо (ruDALL-E XL vs Kandinsky)

Теперь посмотрим, как модель справляется с геометрическими формами и пространственными структурами (тем, что мы договорились называть «композициями»). Начнём с простого запроса «квадратные синие часы»:

Великий Кандинский, или как новая нейросеть Сбера научилась рисовать всё, что угодно (почти)

Здесь результат очень хороший: модель уловила форму — и практически все картинки соответствовали запросу (а на некоторых ещё и все цифры расставлены по порядку!). Увеличиваем количество углов — и подаём такой запрос: «Зелёные часы в виде шестиугольника».

В этом случае, конечно, меньше подходящих вариантов: считать углы непросто, иногда выходит больше, а иногда и вовсе не хочется заморачиваться — и получается привычный круг. Но верные генерации, тем не менее, в итоге успешно рождаются.

Количественная оценка

Самое время перейти к объективным метрикам и показать какие-нибудь красивые числа. Мы будем честны: с этим возникли некоторые сложности. Для адекватной оценки условной генерации изображений нужно учитывать несколько аспектов: эстетические качества, реалистичность получившегося изображения и его соответствие исходному запросу. Пока в нашем распоряжении есть лишь 422 пары «картинка – описание», за которые мы можем ручаться (но скоро обязательно будет и полный сет).

<span>Радужная сова (ruDALL-E XL vs Kandinsky)</span>

Мы не случайно назвали нашу дообученную модель в честь величайшего русского художника-абстракциониста, и не зря иллюстрации к разделам этой статьи были сгенерированы по названиям его картин (кстати, советуем сравнить с оригиналами): нам кажется, что художникам и дизайнерам не стоит бояться, а стоит сделать генеративные модели своими помощниками и вдохновителями – будущее явно за творческим тандемом человека и AI.

Многие из последних работ в области генерации пока без открытого кода, что во многом замедляет процесс тестирования новых задач и областей их применения. Мы сразу знали, что пойдём по другому пути — будем и дальше максимально сохранять открытость наших разработок.

Отдельно хотим поблагодарить сообщество, всех разработчиков, кто помогал и предлагал идеи: благодаря вам мы двигаем генеративные сетки вперед! Наш Kandinsky делает нейроискусство доступным — потестить возможности нейросети можно:

● Запросы к модели можно подать в режиме реального времени с помощью виртуального ассистента Салют («Салют, включи художника»)

● В чате Discord можно делиться результатами генерации и подбирать лучшие запросы в формате общей очереди

● Наш репозиторий с последними файнтюнами:

github.com

GitHub - ai-forever/ru-dalle: Generate images from texts. In Russian

● Telegram-канал главного разработчика ruDALL-E: https://t.me/shonenkovAI

Коллектив авторов:Дарья Бакшандаева, Алекс Шоненков, Андрей Кузнецов, Денис Димитров, Олег Шляжко, Татьяна Шаврина, Сергей Марков, Анастасия Мальцева, Игорь Павлов

12 комментариев

Артурас Лапинскас

16.06.2022

Рисовать и создавать коллажи из имеющихся фото это не одно и тоже

Ответить

Андрей Кузнецов

Конечно, поэтому здесь речь и не о коллажах

Niko

Интересно. На ваших картинках вообще красота! А у меня вот какая получилась "электрическая буря за окном"... И это за 12 минут ожидания. Честно говоря результат не очень, ассоциаций с бурей никаких