SberDevices

«Вы синиц показываете? Красивое!». Что сгенерировали пользователи с помощью нейросети ruDALL-E от «Сбера»

В топ-3 запросов вошла женская грудь, но не вошли котики.

Команды SberDevices, Sber AI и SberCloud 2 ноября анонсировали мультимодальную нейросеть ruDALL-E, которая создаёт картинки по заданному описанию на русском языке, и сразу запустили демо-сайт, где её можно опробовать.

Поток пользователей, желающих протестировать новинку, превзошел наши ожидания! С момента запуска прошло двое суток, а количество просмотров сайта превысило 2 миллиона. За это время нейросеть сгенерировала более 400 тысяч изображений. Мы очень рады, что наша новая модель вызвала такой интерес, и хотим поделиться первыми результатами её «живой» работы. Рассказывает руководитель команды AGI NLP SberDevices.

Татьяна Шаврина
Обучает нейросети

Где попробовать

Нейросеть можно попробовать на демо-сайте rudalle.ru, в мобильном приложении «Салют» и на умных устройствах Sber. Вызвать нашего молодого художника очень легко – достаточно сказать виртуальным ассистентам «Салют» «Запусти Далли» или «Включи художника», а дальше озвучить запрос на генерацию изображения. Мы учли опыт первых дней и выделили отдельные мощности для того, чтобы быстрее обрабатывать запросы, сделанные через наших ассистентов.

ruDALL-E в мобильном приложении Салют

Что хотят видеть пользователи

В первый день с демо-сайта приходило до 6 тысяч запросов в минуту, на второй день пиковый показатель достиг 9 тысяч. В основном это были пользователи из России, Белоруссии, Германии и Казахстана. Чаще всего люди хотели увидеть, как нейросеть изобразит то, о чём не в состоянии умолчать большинство заборов нашей страны. Второй по популярности опцией оказалась женская грудь, а вот на третьем месте — президент. Коты оказались только на четвёртой строчке, хотя, кажется, в интернете их любят больше всего. В топ запросов вошли также «ктулху», «бог» и «любовь».

Как работает модель

Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию. Есть два варианта модели: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E 12B XXL с 12 миллиардами параметров, которая обладает большей ёмкостью и генерирует изображения лучшего качества. Демо-версия основана на меньшей из моделей.

Вот какие изображения сгенерировала демо-версия модели по самым популярным запросам пользователей:

Изображение, полученное по запросу «Клод Моне красивый кот», ruDALL-E XL
Изображение, полученное по запросу «Любовь», ruDALL-E XL
Изображение, полученное по запросу «Ктулху в Р'льехе ждёт рассвета», ruDALL-E XL

Демо-версия модели порадовала многих пользователей достаточно неоднозначными картинками с немалой долей абстракции. Это закономерно, ведь, в отличие от отлаженного промышленного применения, при котором генерируется много изображений и автоматически выбирается лучшее, в демо-версии создаётся только одно – и сразу передаётся пользователю. Это нужно для того, чтобы ускорить процесс работы нейросети над одним запросом, ведь их поступают тысячи в минуту, но мы не хотим заставлять пользователей ждать по несколько часов (а ждать из-за объёма одновременно генерируемых картинок и так приходится). Технически генерация одного изображения занимает в среднем 29 секунд, но мощности не безграничны, поэтому в демо-варианте приходится чем-то жертвовать. Зато можно от души наиграться с запросами к искусственному интеллекту.

Изображение, полученное по запросу «Лучшая картина Васи Ложкина», ruDALL-E XL
Изображение, полученное по запросу «Бобёр на Луне», ruDALL-E XL
Изображение, полученное по запросу «Айфон 14», ruDALL-E XL

Изображение, полученное по запросу «Кресло в форме авокадо», ruDALL-E XL

Изображение, полученное по запросу «Ждун в форме авокадо», ruDALL-E XL

В ноябре 2021 года уже можно будет найти большую модель ruDALL-E 12B XXL в открытом доступе на платформе ML Space — и получить более качественные результаты. В оригинальном варианте модели создание изображений происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Подробно почитать об этом можно здесь.

Вот примеры работ большой ruDALL-E:

«Рыжий котик», ruDALL-E 12B XXL
Изображение, полученное по запросу «Лучшая фотография Нью-Йорка», ruDALL-E 12B XXL
Изображение, полученное по запросу «Кресло в форме авокадо», ruDALL-E 12B XXL

Мы постоянно дообучаем модель на дополнительных чистых датасетах и стараемся оптимизировать работу графических процессоров, на которые ложится очень большая нагрузка, ведь каждая картинка, которую получает пользователь, уникальна.

ruDALL-E в цифрах за двое суток:

400 тысяч сгенерированных изображений

— свыше 2 млн посещений демо-сайта

9 тысяч запросов к модели в момент пиковой нагрузки

29 секунд уходит на генерацию одного изображения

ruDALL-E, что это?

Мы с интересом следили за тем, что получалось у наших пользователей, чем они делились в социальных сетях и комментариях, и заметили, что многие картинки вышли забавными и несколько «оторванными» от описания. Почему? Всё просто: нейросеть, хоть и обучается на огромных массивах данных, но воспринимает всё буквально и, в отличие от человека, не учитывает контекст. Например, по запросу «Вечерний пейзаж: скалистый островок с одиноким деревом посреди моря» она выдала картинку, на которой были все необходимые элементы, просто по отдельности — дерево оказалось посреди моря, отдельно от острова.

«Вечерний пейзаж: скалистый островок с одиноким деревом посреди моря», ruDALL-E  XL

По более знакомым для модели запросам получилось и множество очень удачных изображений:

Изображение, полученное по запросу «Безмятежность», ruDALL-E XL
Изображение, полученное по запросу «Тян из аниме», ruDALL-E XL

Изображение, полученное по запросу «Феррари», ruDALL-E XL

Почему синицы?

Очень любопытным оказался кейс с изображением синиц, которых ruDALL-E выдавала по запросу о женской груди. Интересную версию выдвинули авторы N+1, предположив что наши разработчики использовали датасеты с англоязычными описаниями и автоматически перевели их на русский с помощью нейросети для генерации текста ruGPT-3. Это не совсем так. Наша модель обучалась на 120 миллионах пар «изображение-текст», и часть датасета действительно содержала автоперевод с английского на русский язык, отсюда и синицы (в английском языке тоже есть омонимы, например, 'flat' одновременно переводится и как 'плоский', и 'квартира'). Однако никакого отношения к ruGPT-3 перевод не имеет, хотя мы и рады, что эта нейросеть уже приобрела известность.

В действительности целый ряд фотостоков в тэгах alt и title русскоязычных версий своих страниц использует тексты, полученные при помощи самых разных моделей машинного перевода. Простых способов отделения таких автопереведённых описаний от описаний, созданных людьми, к сожалению, не существует. Мы постепенно улучшаем качество описаний в обучающей выборке, как при помощи ручной разметки, так и при помощи различных алгоритмов.

ruDALL-E XL

Как будет развиваться технология?

Работа над обучением модели не останавливается — модель постоянно доучивается на новых данных и тематиках, время работы модели оптимизируется. Использовать её уже сейчас можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, а в будущем она позволит создавать и материалы для рекламы, копирайтинга, архитектурного и промышленного дизайна.

Продуктовый релиз ruDALL-E состоится на конференции AI Journey, которая пройдёт онлайн 10-12 ноября. Попробовать большую модель ruDALL-E 12B XXL и модель ruDALL-E XL можно будет на ML Space. В скором времени у демо-сайта появится и опция генерации картинок по описанию на английском языке, а также перевод интерфейса.

0
75 комментариев
Популярные
По порядку
Написать комментарий...

«Рогозин на Марсе»

52

Как же это офигенно

2

Это просто космос!

1

Больше на Маска похож, тощеват.

0

«Мифический человеко-месяц»

41

Круто

0

мне показалось мол это птеродактиль

0

Сгенерено ruDALL-E по запросу: «Фаянсовая киса, похожая на Семёна Михайловича Будённого».

11

Я вчера сделал Инстаграм-аккаунт @rudalle.ru с самыми красивыми, угарными и впечатляющими (из тех, что нашёл в медиа и Фейсбуке) произведениями этой нейросети — считайте, коллекционер )

Закидывайте мне, я опубликую ваше тоже .)

Тык по ссылке 👇 ред.

7

Ты же понимаешь, что не можешь использовать чужую интеллектуальную собственность для собственного заработка?

0

Либо*
Но нет, для заработка всё равно не может

–17

Либо 🤦‍♂️

22

либа либа аморе аморе...

10

либа = library (на гитхабе)

По вашему мнению, например, стартап не может использовать общепринятые Redis или Kafka, если они косвенно тоже участвуют в получении заработка? Несмотря на то, что у них опенсорсная лицензия, не запрещающая Commercial use

9

для заработка всё равно не может

Обоснуете?

0

Да, он использует название софта в названии группы в соцсети, т.е это неправомерное использование торговой марки, тут так или иначе, но по лицензии, даже самой простой - пролетает, т.к самое лайтовое копирайт право все равно просит не воровать торговые знаки и указывать авторство всегда

0

Не всякое использование марки нарушает исключительнок право. В данном случае - обычное добросовестное информирование о контенте.

0

Так что в итоге то? Лицензия не даёт право на продажу или все таки можно уже свой NFT анонсировать?

0

Далли? Тот который Ссальваддор? Ну как же, знаем-знаем.

Стыдно, руководитель команды AGI NLP SberDevices Татьяна Шаврина, стыдно за вас... ред.

–13

Название модели DALL-E было придумано не Татьяной Шавриной, а специалистами OpenAI. Оно совмещает в себе имя Сальвадора Дали и робота WALL-E. Название ruDALL-E получено лишь добавлением «ru».

Вы бы хотя бы немного разобрались, прежде чем кидать обвинения.

21

Радуюсь за Ваш кругозор, Стас! Кажется, его еще можно расширить)

9

Из того, что я пробовал, самое клевое получилось такое. Был бы я фанатом Пеннивайза, я бы даже, может, повесил на стену и выдавал это за какой-то арт

6

Походу пора валить с биржи

6

«Товарищ майор»

4

Слав Воренци, совиетски милитсионьер

2

У меня почему-то какая-тт сплошная бесформенная мешанина по вполне вменяемым, точным и конкретным запросам. И генерирует по полчаса, а раньше за 10 минут делалось. Короче, забава на пять минут - ничего полезного или, тем более, умного.

3

да... уж...

2

Пришлите тексты запросов. Сколько раз пробовали?

Время генерации зависит от числа людей, которые делают запросы, сейчас их очень много...

–1

Я могу ошибаться, но по моим наблюдениям инновации всегда появляются так.
Кто-то придумывает идею.
Все начинают сливать миллиарды в попытке это реализовать. При чем быстро понимают, что не осилят, но не хотят слазить с инвестиционной трубы.
У кого-то на западе это получается.
Весь мир покупает их устаревшие технологии и выдает за результат многомиллиардных сливов.

Или вы думаете что сбер сможет сделать это первым и разобьёт мои стереотипы? Я не знаю как в мире, в России даже проверку ошибок в тексте не могут сделать. ред.

–1

Для появления инноваций в продуктах есть несколько стратегий, например, метод интерполяции или постоянный мониторинг зрелости технологий RnD.
Я верю, что самая большая ценность в нашем случае:
1) Open source для всех - OpenAI выложили только научную статью, без кода и без модели. Мы консолидировали усилия нескольких ML-команд, команду вычислительного суперкомпьютера Кристофари, ИИ Институт. Сейчас в англоязычном твиттере уже обсуждают, как прикрутить к нашей модели переводчик. Мы и сами это скоро сделаем)
В этом смысле Сбер выполняет очень важную социальную миссию, если хотите.
2) Развитие российского сообщества вокруг новых технологий. В РФ прекрасные разработчики, но по количеству публикаций в области ИИ Россия совсем не на первых местах, входит только в топ-20. Хочется вносить посиольный вклад и провоцировать новые исследования.
You are welcome!

7

Будет ли статья не в формате vc.ru или "англоязычного твиттера", а чтобы ребята из OpenAI кидали друг-другу ссылки на arxiv? Чтобы ребята из NVidia, которые пилят stylegan и обучают терабайтными батчами imagenet за 10 секунд, не сделали facepalm глядя на недообученную сетку со взорванными весами, половина картинок которой омрачают детские болезни GAN'ов 2018го года. Чтобы можно было поехать не на AI Journey где технических докладчиков выгоняют со сцены "у вас время кончилось" чтоб побольше маркетинга впихнуть, а на NIPS. Охохооох. Синиц они показывают...

Статья норм чтобы показать Грефу как счастливый народ фоточки с милыми котиками-инвалидами за счёт сбербанка генерит. Как это поможет вклад в науку увеличить - не понятно. ред.

2

Будет позже в журнале. Процесс рецензирования сейчас идет очень долго, иногда растягивается месяцев на 9 в хороших журналах.

Можете нагуглить спокойно все мои статьи, в т.ч. на Neurips.
https://scholar.google.com/citations?user=sdmdZh8AAAAJ&hl=ru
https://openreview.net/forum?id=AiU1SoiaeMX

2

Проверка ошибок в тексте? Ну что вы такое говорите? Они же не на экзамене!

1

Я бы хотел узнать очень сильно, из-за чего текст превращается в какие-то непонятные символы? По запросам часто бывает нейросеть выдаёт что-то с текстом, но текст на полученных изображениях размыливается как-то, или даже не знаю, превращается будто в другой язык. Планируется ли это менять как-то?

3

Честно говоря, был удивлен тем, что запросы не цензурируются. Т.е. можно вбить вообще что угодно: и 18+, и политические темы.

Интересно, почему не сделали хотя бы какой-то базовый "черный" список? Ну и в NLP даже для русского языка уже существуют, насколько помнится, разные опенсорсные либы для этого.

–6

Мы не видели смысла. Любой такой фильтр можно обойти, а само его наличие будет скорее провоцировать людей стремиться это сделать. Кроме того, моделька, лежащая в основе демки, всё равно выложена в открытый доступ.

Из обучающей выборки картинки с матерными описаниями, конечно, изъяли, но, опять же, отфильтровать все 120 млн картинок в обучающей выборке нереально, так что что-то просочилось, конечно

9

картинки с матерными описаниями, конечно, изъяли

Зачем?

0

Чтобы уменьшить количество крипа в генерируемых изображениях.

0

Ханжество. Уверен, мат коррелирует с интенсивностью эмоций. То есть возможно с матом теряется и что-то очень интересное.

1

спасибо за объяснение, Сергей! Примерно так себе и представлял это решение.

0

Ну вот в яндексовской "балаболе" - цензурируются. Причём довольно жёстко (Терешкову там точно упоминать нельзя). И прислали мне её как раз со ссылкой на то, что именно цензура не пропускает. Явно же неудачное решение?

0

Это был просто вопрос, а не призыв так делать :) хотелось просто уточнить процесс принятия решения. Поэтому до сих пор не особо понимаю отсыпающихся постоянно минусов, но ладно

0

Я подозреваю, что "полуавтоматическая" ассоциация с Роскомнадзором и прочими штуками.
Видимо не очень удачная у вас формулировка оказалась. С таким уточнением понятнее. (И да - минус я снял).

1

абсолютно на всех картинках с мордами лица людей и животных постоянно разные глаза? Это какой то прикол или фича?

2

«Подписка vc.ru за 75 рублей»

2

Апос?

1

Такие же слова греческие юниты в Age of Mythology произносили

2

Сгенерено ruDALL-E по запросу: «Русская идея».

2
–3

Устали искать адекватные картинки для поста из тех, что выдала нейросеть?)

1

Не, это не трудно) В зависимости от запроса, конечно, выход годноты разный :) Скажем, по запросу «Кот в форме авокадо» он где-то 40 картинок из 256, а по запросу «Красивый кот» где-то 200 из 256.

1

Здравствуйте! Поддержка вызванная через приложение "Салют" вводит в заблуждение (это я потом сам нашёл правильный ответ), поверхностно отвечает не на те вопросы, не до конца знакома с продуктом "салют".
Я всего лишь хотел узнать как активировать режим "художника" в "салюте".
В итоге мне написали, что такого нет в приложении "салют". Подробнее написал в лс

1

«ruDALL-E автопортрет»

1

Это гусь в смешной шляпе.
Один вопрос.

Как теперь заснуть?

0

Будьте осторожны с использованием этих картинок где либо: сторонние правообладатели могут засудить за плагиат. Мне вчера эта нейросеть впервые выдала картинку с понятной надписью, я обрадовался, а оказалось, что это настоящая обложка настоящей одноимённой книги, только шрифт чуть деформированный. Кто знает, может и другие подобные эпизоды случаются...

0

Что оно такое?

0

Приходите к нам на онлайн–семинар в пятницу, расскажем про технические подробности, ответим на каверзные вопросы :)

0

А вопрос уже есть!

Видите ли вы возможным в обозримом будущем размещение ссылок на свои мероприятия отличным от формата jpg способом? Спасибо.

0

Изменено:

Тут было продолжение шутки с введённым вручную https://bit.ly/3ep1ubw, но там 404. ред.

0
0

"Надежда на лучшее"

0

"Андрей Серов из Волгограда"

0

угадай репера

0

красивый наглый голодный кот

0

в топ-3 запросов вошла женская грудь, результаты показывать мы, конечно, не будем

0

[2/2]

Демо-версия модели порадовала многих пользователей достаточно неоднозначными картинками с немалой долей абстракции. Это закономерно, ведь, в отличие от отлаженного промышленного применения, при котором генерируется много изображений и автоматически выбирается лучшее, в демо-версии создаётся только одно – и сразу передаётся пользователю. Это нужно для того, чтобы ускорить процесс работы нейросети над одним запросом. Их поступают тысячи в минуту, но мы не хотим заставлять пользователей ждать по несколько часов. А ждать из-за объёма одновременно генерируемых картинок и так приходится. Технически генерация одного изображения занимает в среднем 29 секунд, но мощности не безграничны, поэтому в демо-варианте приходится чем-то жертвовать, в данном случае – количеством картинок. Зато можно от души наиграться с запросами к искусственному интеллекту.

0

А где же примеры по двум самым популярным запросам? :)

0

что ты такое? )))

0

Пушкин вампир

0

патриотическая серия

0
0
Читать все 75 комментариев
Завод по производству идей. Как работают акселераторы, зачем они нужны стартапам и куда идти с идеей прямо сейчас

По данным Startup Genome, 9 из 10 стартапов терпят неудачу. Возможных причин «смерти» много: недостаточно протестированная гипотеза, неподтвержденная юнит-экономика, неверная стратегия или просто неудача в подходе к продажам.

Яндекс.такси списал деньги за поездку, которую я не совершал!

И так предстояла поездка по городу и я выбрал яндекс такси зайд я в приложение я увидел что у меня образовался долг и я как законопослушный гражданин оплатил его, и какого было мое удивление когда у меня списалась довольно круглая сумма 4206 руб, пообщавшись с службой поддержки я понял что там какие то роботы и искать помощи нет смысла в общении…

Наследник Рокфеллера, сын Софи Лорен, боксёр и продюсер: история француза, обманувшего Рурка, Ван Дамма и других звёзд Статьи редакции

СМИ прозвали Кристофера Роканкура звёздным мошенником: его жертвами были голливудские знаменитости и американские предприниматели. Точная сумма ущерба от действий француза неизвестна, но сам он утверждает, что за свою жизнь «заработал» $40 млн.

Кристофер Роканкур и Наоми Кэмпбелл francetvinfo
Хочу кухню как у подруги: зачем в Циан сделали поиск квартир по фото

Рассказывает Юлия Зыкова, руководитель команды «Аудитория» в Циан.

Из науки в IT: как создать свой стартап и стать преподавателем

Как перейти в IT из другой сферы? Как разработать курс, которому нет аналогов? Как студенту получить максимум пользы от занятий? Рассказывает преподаватель OTUS Сергей Окатов, руководитель курсов «Kotlin Backend Developer» и «Kotlin Developer. Basic».

Потратили $1 млн на клинику для профилактики здоровья зубов в Москве — и через десять месяцев закрыли проект

История о неудачном запуске монопродукта в стоматологии — его пришлось переформатировать.

Та самая клиника
Как у меня украли 600 тысяч с карты, а Тинькофф нарушает федеральный закон

Спойлер: я НЕ вводил никуда код, НЕ переходил по ссылкам и НЕ сообщал данные карты.

Я всегда считал себя финансово грамотным человеком, сам когда-то работал в банке, соблюдал цифровую гигиену, держал деньги на нескольких счетах, не привязывал основную карту в непонятных сервисах, в 90% оплат пользовался Google Pay. Когда родственники присылали…

Бизнес — как ребенок: как мамы совмещают свое дело с заботой о детях

Как совмещать бизнес и семью? Ко Дню матери своими историями поделились бизнесвумен, которые работают c ЮKassa и занимаются детьми. Читайте, как им удается сохранять жизненный баланс и добиваться успеха.

Как я заработал свой первый миллион просмотров на лонгридах

Мой опыт ведения текстового блога на «Виси», «Пикабу», «Хабре», Дзене и еще пачке площадок. Сколько потратил на них сил и какую отдачу в итоге получил.

Что Tele2 предлагает клиентам в «черную пятницу»

На главной распродаже года клиентов компании ждут сразу несколько интересных предложений: скидки на смартфоны, пакеты SMS и безлимитный трафик на YouTube, Яндекс.Карты, Яндекс.Навигатор.

Бот, который сделает маму счастливее

Kind Bot напечатает и отправит по почте фото вашей маме. В 2 клика.

null