«Вы синиц показываете? Красивое!». Что сгенерировали пользователи с помощью нейросети ruDALL-E от «Сбера»
В топ-3 запросов вошла женская грудь, но не вошли котики.
Команды SberDevices, Sber AI и SberCloud 2 ноября анонсировали мультимодальную нейросеть ruDALL-E, которая создаёт картинки по заданному описанию на русском языке, и сразу запустили демо-сайт, где её можно опробовать.
Поток пользователей, желающих протестировать новинку, превзошел наши ожидания! С момента запуска прошло двое суток, а количество просмотров сайта превысило 2 миллиона. За это время нейросеть сгенерировала более 400 тысяч изображений. Мы очень рады, что наша новая модель вызвала такой интерес, и хотим поделиться первыми результатами её «живой» работы. Рассказывает руководитель команды AGI NLP SberDevices.
Где попробовать
Нейросеть можно попробовать на демо-сайте rudalle.ru, в мобильном приложении «Салют» и на умных устройствах Sber. Вызвать нашего молодого художника очень легко – достаточно сказать виртуальным ассистентам «Салют» «Запусти Далли» или «Включи художника», а дальше озвучить запрос на генерацию изображения. Мы учли опыт первых дней и выделили отдельные мощности для того, чтобы быстрее обрабатывать запросы, сделанные через наших ассистентов.
Что хотят видеть пользователи
В первый день с демо-сайта приходило до 6 тысяч запросов в минуту, на второй день пиковый показатель достиг 9 тысяч. В основном это были пользователи из России, Белоруссии, Германии и Казахстана. Чаще всего люди хотели увидеть, как нейросеть изобразит то, о чём не в состоянии умолчать большинство заборов нашей страны. Второй по популярности опцией оказалась женская грудь, а вот на третьем месте — президент. Коты оказались только на четвёртой строчке, хотя, кажется, в интернете их любят больше всего. В топ запросов вошли также «ктулху», «бог» и «любовь».
Вот какие изображения сгенерировала демо-версия модели по самым популярным запросам пользователей:
Демо-версия модели порадовала многих пользователей достаточно неоднозначными картинками с немалой долей абстракции. Это закономерно, ведь, в отличие от отлаженного промышленного применения, при котором генерируется много изображений и автоматически выбирается лучшее, в демо-версии создаётся только одно – и сразу передаётся пользователю. Это нужно для того, чтобы ускорить процесс работы нейросети над одним запросом, ведь их поступают тысячи в минуту, но мы не хотим заставлять пользователей ждать по несколько часов (а ждать из-за объёма одновременно генерируемых картинок и так приходится). Технически генерация одного изображения занимает в среднем 29 секунд, но мощности не безграничны, поэтому в демо-варианте приходится чем-то жертвовать. Зато можно от души наиграться с запросами к искусственному интеллекту.
В ноябре 2021 года уже можно будет найти большую модель ruDALL-E 12B XXL в открытом доступе на платформе ML Space — и получить более качественные результаты. В оригинальном варианте модели создание изображений происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Подробно почитать об этом можно здесь.
Вот примеры работ большой ruDALL-E:
Мы постоянно дообучаем модель на дополнительных чистых датасетах и стараемся оптимизировать работу графических процессоров, на которые ложится очень большая нагрузка, ведь каждая картинка, которую получает пользователь, уникальна.
ruDALL-E, что это?
Мы с интересом следили за тем, что получалось у наших пользователей, чем они делились в социальных сетях и комментариях, и заметили, что многие картинки вышли забавными и несколько «оторванными» от описания. Почему? Всё просто: нейросеть, хоть и обучается на огромных массивах данных, но воспринимает всё буквально и, в отличие от человека, не учитывает контекст. Например, по запросу «Вечерний пейзаж: скалистый островок с одиноким деревом посреди моря» она выдала картинку, на которой были все необходимые элементы, просто по отдельности — дерево оказалось посреди моря, отдельно от острова.
По более знакомым для модели запросам получилось и множество очень удачных изображений:
Почему синицы?
Очень любопытным оказался кейс с изображением синиц, которых ruDALL-E выдавала по запросу о женской груди. Интересную версию выдвинули авторы N+1, предположив что наши разработчики использовали датасеты с англоязычными описаниями и автоматически перевели их на русский с помощью нейросети для генерации текста ruGPT-3. Это не совсем так. Наша модель обучалась на 120 миллионах пар «изображение-текст», и часть датасета действительно содержала автоперевод с английского на русский язык, отсюда и синицы (в английском языке тоже есть омонимы, например, 'flat' одновременно переводится и как 'плоский', и 'квартира'). Однако никакого отношения к ruGPT-3 перевод не имеет, хотя мы и рады, что эта нейросеть уже приобрела известность.
В действительности целый ряд фотостоков в тэгах alt и title русскоязычных версий своих страниц использует тексты, полученные при помощи самых разных моделей машинного перевода. Простых способов отделения таких автопереведённых описаний от описаний, созданных людьми, к сожалению, не существует. Мы постепенно улучшаем качество описаний в обучающей выборке, как при помощи ручной разметки, так и при помощи различных алгоритмов.
Как будет развиваться технология?
Работа над обучением модели не останавливается — модель постоянно доучивается на новых данных и тематиках, время работы модели оптимизируется. Использовать её уже сейчас можно для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, а в будущем она позволит создавать и материалы для рекламы, копирайтинга, архитектурного и промышленного дизайна.
Продуктовый релиз ruDALL-E состоится на конференции AI Journey, которая пройдёт онлайн 10-12 ноября. Попробовать большую модель ruDALL-E 12B XXL и модель ruDALL-E XL можно будет на ML Space. В скором времени у демо-сайта появится и опция генерации картинок по описанию на английском языке, а также перевод интерфейса.
Я могу ошибаться, но по моим наблюдениям инновации всегда появляются так.
Кто-то придумывает идею.
Все начинают сливать миллиарды в попытке это реализовать. При чем быстро понимают, что не осилят, но не хотят слазить с инвестиционной трубы.
У кого-то на западе это получается.
Весь мир покупает их устаревшие технологии и выдает за результат многомиллиардных сливов.
Или вы думаете что сбер сможет сделать это первым и разобьёт мои стереотипы? Я не знаю как в мире, в России даже проверку ошибок в тексте не могут сделать.
Для появления инноваций в продуктах есть несколько стратегий, например, метод интерполяции или постоянный мониторинг зрелости технологий RnD.
Я верю, что самая большая ценность в нашем случае:
1) Open source для всех - OpenAI выложили только научную статью, без кода и без модели. Мы консолидировали усилия нескольких ML-команд, команду вычислительного суперкомпьютера Кристофари, ИИ Институт. Сейчас в англоязычном твиттере уже обсуждают, как прикрутить к нашей модели переводчик. Мы и сами это скоро сделаем)
В этом смысле Сбер выполняет очень важную социальную миссию, если хотите.
2) Развитие российского сообщества вокруг новых технологий. В РФ прекрасные разработчики, но по количеству публикаций в области ИИ Россия совсем не на первых местах, входит только в топ-20. Хочется вносить посиольный вклад и провоцировать новые исследования.
You are welcome!
Будет ли статья не в формате vc.ru или "англоязычного твиттера", а чтобы ребята из OpenAI кидали друг-другу ссылки на arxiv? Чтобы ребята из NVidia, которые пилят stylegan и обучают терабайтными батчами imagenet за 10 секунд, не сделали facepalm глядя на недообученную сетку со взорванными весами, половина картинок которой омрачают детские болезни GAN'ов 2018го года. Чтобы можно было поехать не на AI Journey где технических докладчиков выгоняют со сцены "у вас время кончилось" чтоб побольше маркетинга впихнуть, а на NIPS. Охохооох. Синиц они показывают...
Статья норм чтобы показать Грефу как счастливый народ фоточки с милыми котиками-инвалидами за счёт сбербанка генерит. Как это поможет вклад в науку увеличить - не понятно.
Будет позже в журнале. Процесс рецензирования сейчас идет очень долго, иногда растягивается месяцев на 9 в хороших журналах.
Можете нагуглить спокойно все мои статьи, в т.ч. на Neurips.
https://scholar.google.com/citations?user=sdmdZh8AAAAJ&hl=ru
https://openreview.net/forum?id=AiU1SoiaeMX