Selectel

5 авг 2022 5.08.2022

DALL·E: что мы знаем о молодой и многообещающей нейросети?

С момента релиза DALL·E не раз попадала в топы новостей: нейросеть освоила навыки редактуры изображений, научилась распознавать запросы на русском и даже «сделала»‎ обложку для глянцевого журнала. А недавно разработчики анонсировали еще одно изменение — теперь созданные визуалы можно использовать для коммерческих целей.

Какой путь прошла DALL·E за полтора года — рассказываем и показываем в тексте. Ваши изображения, истории и размышления о будущем дизайна собираем в комментариях.

Ниже вы узнаете:

Чем знаменита DALL·E
Что DALL·E 2 еще не умеет
Как работает коммерциализация диджитал-арта
Что ждет нас дальше

Чем знаменита DALL·E?

DALL·E — это нейросеть, которая умеет генерировать изображения по текстовому описанию. Первую версию разработчики из OpenAI представили в 2021 году. Тогда DALL·E создавала картинки, обрабатывая запрос пользователя на английском языке.

Для обучения использовали датасет из пар «текст+изображение» и нейронную сеть в 12 миллиардов параметров.

Если ввести запрос «кресло в форме авокадо», нейросеть предложит следующие изображения. Источник

В ноябре того же года команда разработчиков, включая Лабораторию по искусственному интеллекту Сбербанка, выпустила генератор изображений по запросам на русском языке — ruDALL-E. Сейчас у нее уже несколько модификаций:

ruDALL-E Kandinsky — работает в приложениях «Салют» и Discord и генерирует изображения с помощью голосовых команд.

ruDALL-E Malevich — пожалуй, наиболее похожая на оригинальную DALL·E нейросеть. Принцип действия точно такой же: вводите текстовый запрос на русском языке, а ИИ возвращается с изображениями.
ruDALL-E Emojich — генерирует по текстовому описанию смайлики. Их можно использовать для стикеров, клипартов и прототипов.

Изображение, сгенерированное телеграм-ботом ruDALL-E Malevich по запросу «дата-центр будущего». Источник

Изображение, сгенерированное телеграм-ботом ruDALL-E Malevich по запросу «сисадмин года». Источник

В апреле 2022 года OpenAI представила DALL·E 2: качество картинок улучшилось до разрешения 1024х1024 пикселей, сократилось количество искажений и смазанных элементов. Еще нейросеть научилась редактировать уже готовые изображения: изменять композицию, тени и структуру.

Нейросеть научилась удалять объекты, объединять непохожие друг на друга визуалы и создавать новые рисунки, опираясь на уже имеющиеся. Источник

Что DALL·E 2 еще не умеет?

Конечно, нейросеть не совершенна. Так, например, пользователи обнаружили, что она не умеет считать. Если ввести запрос «семь красных яблок на стеклянном блюдце», то на картинке будет несколько яблок — но не факт, что именно семь. Также DALL·E 2 теряется, если запросить слишком много деталей.

Ниже попытки одного из пользователей получить изображение по сложному запросу: «маленький темноволосый мальчик, отдыхающий в постели, и седая пожилая женщина, сидящая в кресле рядом с кроватью у окна, сквозь которое льется солнце, диджитал-арт в стиле Pixar».

Изображения по запросу. Источник

Коммерциализация диджитал-арта

В официальном сообщении компании о выпуске DALL·E 2 в бету говорится, что пользователи, которые получили доступ к нейросети, теперь могут использовать сгенерированные изображения в коммерческих целях. Чтобы протестировать нейросеть самостоятельно, нужно встать в лист ожидания — и ждать, когда вам повезет. Это бесплатно.

«Начиная с сегодняшнего дня (20 июля 2022 года), пользователи получают полное право на коммерческое использование изображений, созданных ими с помощью DALL·E, включая право на перепечатку, продажу и создание мерча.

Пользователи сообщили нам, что с помощью DALL·E они хотят генерировать иллюстрации для детских книг, визуалы в SMM, игровой концепт-арт, мудборды и раскадровки для фильмов», — отметили разработчики.

К такому ходу уже прибегли в журнале Cosmopolitan. На обложке нового выпуска не было селебрити, заголовков про моду и успех, стильных нарядов. Только подпись: «Встречайте первую в мире обложку журнала, созданную искусственным интеллектом». И примечание ниже: «Это заняло всего 20 секунд».

Обложка Cosmopolitan, созданная нейросетью. Источник

Что дальше?

На фоне новостей о DALL·E 2 пользователи спорят о том, какое будущее ждет дизайн. Да, нейросеть все еще генерирует неидеальные изображения по текстовому запросу, но ее быстрое развитие очевидно. А скорость, с которой готовится визуал, впечатляет.

Разработчики DALL·E 2 говорят, что не претендуют на лавры дизайнеров. На лендинге DALL·E 2 они написали: «Мы надеемся, что DALL·E 2 даст людям возможность творчески самовыражаться. Нейросеть также помогла нам понять, как системы искусственного интеллекта видят и понимают наш мир. Это критически важно для нашей цели по созданию искусственного интеллекта, приносящего пользу человечеству».

Кстати, DALL·E — не единственная нейросеть по генерации изображений.

Креативы, которые генерирует нейросеть Midjourney, впечатляют своей сложностью и оригинальностью. Они больше похожи на произведения искусства, чем на созданную искусственным интеллектом иллюстрацию.

Изображение, сгенерированное Midjourney по запросу «Ты можешь уснуть за две минуты». Источник

Также есть ИИ This Person Does Not Exist на основе нейросети StyleGAN от Nvidia. Система обработала миллионы портретов и теперь генерирует фото человеческих лиц, основываясь на собирательных образах людей. Это подходящее решение для тех, кто, например, ищет фейковые фото для отзывов или боится нарушить авторские права при использовании реальных фото. Каждый раз, когда вы перезагружаете страницу, ИИ создает новый портрет.

Портрет, сгенерированный нейросетью This Person Does Not Exist. Источник

У нейросети есть проблема с украшениями: она почти никогда не делает их одинаковыми и часто «срезает» на иллюстрации, оставляя только половину сережки. Но генерация нового портрета — дело пары секунд.

Еще одна интересная сеть — Colorize. Она раскрашивает черно-белые изображения в реалистичные цвета.

Портрет, раскрашенный Colorize. Источник

Сможет ли DALL·E и другие нейросети заменить живых дизайнеров, особенно после разрешения коммерциализировать иллюстрации? Давайте обсудим в комментариях.

Подпишитесь на блог Selectel, чтобы не пропустить новые обзоры, новости и кейсы из мира IT и технологий.

Читать также:

#selectel #искусственныйинтеллект #dalle #нейросеть #midjourney

7 показов

7.9K открытий

37 комментариев

Написать комментарий...

Аккаунт удален

6.08.2022

Комментарий недоступен

Ответить

Развернуть ветку

Robastik: веб-парсер Excel

6.08.2022

Это какие слова нарисованы?

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Согласны абсолютно!
Вчера с коллегами смотрели на изображения, сгенерированные Midjourney, и это просто новый уровень дизайна.

Ответить

Развернуть ветку

Джон Крайтон

6.08.2022

Русский неофутуризм от midjourney

Ответить

Развернуть ветку

Dear Moscow,

6.08.2022

Русский неофутуризм

Подскажите пожалуйста, где можно скачать полноразмерные оригиналы этих картинок?

На мой неискушённый взгляд, весьма неплохо, особенно цвета.

Ответить

Развернуть ветку

Джон Крайтон

6.08.2022

Увы, midjourney генерирует в низком разрешении, так что это оригинал.
Там есть апскейл, но у меня закончились квоты.

Ответить

Развернуть ветку

Dear Moscow,

7.08.2022

Увы, midjourney генерирует в низком разрешении

Спасибо за подробный ответ мне и выше.

Досадно. Понимаю, что они могут иметь какие-то коммерческие интересы в связи с использованием результатов, но отдавать картинки 256х256 в 2022-м году — это, конечно, нечто.

Не исключаю, что те, кто начнут более-менее щедро делиться сгенерированными изображениями, имеют высокий шанс неплохо взлететь.

Ответить

Развернуть ветку

Джон Крайтон

7.08.2022

Я вам в личку отправил прямые ссылки на эти арты, там можно сделать улучшение разрешения, если нужно. Это бесплатно.

У нейросети бесплатно можно 30 картинок сгенерировать в месяц, дальше платно.

Ответить

Развернуть ветку

Аккаунт удален

9.08.2022

Комментарий недоступен

Ответить

Развернуть ветку

Джон Крайтон

6.08.2022

Хотя вы тоже можете сделать апскейл, если квоты не закончились.

Ответить

Развернуть ветку

юрий с

6.08.2022

А как ей вообще пользоваться?

Ответить

Развернуть ветку

Джон Крайтон

6.08.2022

Нужен Дискорд.

1. a) Зайти на сайт midjourney.com b) Join the beta c) Sign in with Discord
2. Зайти в дискорде на midjourney
3. Найти любую комнату, название которой начинается на newbie, нажать на неё
4. В комнате набрать на клавиатуре символ / и выбрать в выпадающем списке imagine, получится окошко в поле сообщения примерно так выглядящее /imagine[prompt ]
5. Написать на английском языке что-то, что вы хотите вообразить, нажать enter

Midjourney будет генерировать 4 картинки в низком разрешении в общем чате. Как только закончится, появится 4 пронумерованные кнопки "U" и 4 кнопки "V", каждая относится к одной из четырёх сгенерированных картинок. "U" - это апскейл, улучшить изображение, "V" - это сгенеировать новые варианты этого изображения. Ещё там круговые стрелочки для переделки по тому же описанию.

Ответить

Развернуть ветку

юрий с

6.08.2022

Спасибо. Добавил в закладки

Ответить

Развернуть ветку

Bezoblachno

6.08.2022

Все самое интересное начнется когда нейросеть научится читать сценарии игрового кино

Ответить

Развернуть ветку

K Biuev

6.08.2022

Кстати - да. Все голливудские актеры , да и вообще - в топку. Написал сценарий - засунул в нейросеть и на выходе -готовый блокбастер. Скажем долларо за 100.

Ответить

Развернуть ветку

Bezoblachno

6.08.2022

Ну вот вряд ли. Игровое кино сохранит своё место.

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Хотелось бы посмотреть фильм, созданный нейросетью

Ответить

Развернуть ветку

Bezoblachno

6.08.2022

"Зайдите через 5-6 лет"

Ответить

Развернуть ветку

Alex Gunt

5.08.2022

Теперь задача дизайнера будет научиться правильно составлять запрос и использовать полученный результат в дальнейшей работе.

Заказчики все-равно это делать сами не будут.

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

А зачем дизайнеру использовать этот результат? У дизайнера есть свое воображение, насмотренность, вдохновение, знание трендов и всякое такое.
А тут еще неясно, какая будет лицензия для коммерческого использования.

Ответить

Развернуть ветку

Rnatery

6.08.2022

Зачем напрягаться?

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

В том и дело, что напрягаться - это пользоваться NN для дизайнерских целей. E-dalle была по подписке (сейчас не знаю, как обстоит) и нужно было ожидать своей очереди, чтобы воспользоваться. Вопрос с лицензией тоже остается открытым. Пока это для прода не очень годится. Непонятно, что там с правами на интеллектуальную собственность. Одним словом, фича, которая не нужна)

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Бета DALL·E 2 сейчас бесплатная, но нужно встать в лист ожидания, чтобы получить доступ к тестированию. Разработчики OpenAI в недавнем релизе написали, что передают пользователям коммерческие права на использование сгенерированных изображений — по крайней мере, сейчас так.

Это отвечает на вопросы о том, как попробовать и можно ли воспользоваться в коммерческих целях.

Но согласимся с тем, что изображения ИИ можно использовать не для всех целей и не всегда.

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

Я просто не понимаю, что за тип лицензии будет. Слишком много нюансов. Про права тоже непонятно, потому что сгенерированные изображения могут включать фрагменты чужой интеллектуальной собственности, кто будет это выверять? Ну и сами изображения, они довольно криповые)
А дизайнеров хороших очень много, которые выполнят работу и передадут исключительные права.

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Тоже ждем подробности, потому что в релизе пока совсем мало информации об этом. А крипота изображений иногда только на руку.)

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

)))

Ответить

Развернуть ветку

Руководитель проекта

6.08.2022

20 секунд!!!, Карл!

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Мы тоже в шоке :)

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

В 20 секунд слабо верится, особенно, если работает много пользователей одномоментно

Ответить

Развернуть ветку

Аккаунт удален

9.08.2022

Комментарий недоступен

Ответить

Развернуть ветку

Vikenty

6.08.2022

К вопросу о дизайнерах - по опыту использования обоих нейросетей (и DALL-E2 и mid-journey) дизайнеры уникальных вещей (и стилей) станут только ценнее, т.к. нужно сгенерировать датасет для обучения, без подходящих данных все очевидно ломается. Не получилось сгенерировать нормальное аэротакси, даже через косвенные запросы (пилотируемый дрон и прочее). Вот с уникальным дизайном привычных вещей: кроссовок, кроватей, кружек, интерьеров, автомобилей, архитектуры домов все получается отлично. Итого - первый айфон с датасетом из кнопочных телефонов сделать бы не получилось, а новый необычный android-смартфон на выборке из старых айфонов - легко.

Ответить

Развернуть ветку

Selectel

6.08.2022 Автор

Подходящий дата-сет — основа, согласны. Думаете, обучать нейросети должны именно дизайнеры?

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

Data-scientist их обучает.

Ответить

Развернуть ветку

Джон Крайтон

6.08.2022

Дата-сатанисты

Ответить

Развернуть ветку

Михаил Аташев

6.08.2022

Точно)))

Ответить

Развернуть ветку

Robastik: веб-парсер Excel

6.08.2022

Это тоже очень ненадолго.

Ответить

Развернуть ветку

Аккаунт удален

9.08.2022

Комментарий недоступен

Ответить

Развернуть ветку

Написать комментарий...

34 комментария

Раскрывать всегда