DALL·E: что мы знаем о молодой и многообещающей нейросети?

С момента релиза DALL·E не раз попадала в топы новостей: нейросеть освоила навыки редактуры изображений, научилась распознавать запросы на русском и даже «сделала»‎ обложку для глянцевого журнала. А недавно разработчики анонсировали еще одно изменение — теперь созданные визуалы можно использовать для коммерческих целей.

Какой путь прошла DALL·E за полтора года — рассказываем и показываем в тексте. Ваши изображения, истории и размышления о будущем дизайна собираем в комментариях.

Ниже вы узнаете:

Чем знаменита DALL·E
Что DALL·E 2 еще не умеет
Как работает коммерциализация диджитал-арта
Что ждет нас дальше

DALL·E — это нейросеть, которая умеет генерировать изображения по текстовому описанию. Первую версию разработчики из OpenAI представили в 2021 году. Тогда DALL·E создавала картинки, обрабатывая запрос пользователя на английском языке.

Для обучения использовали датасет из пар «текст+изображение» и нейронную сеть в 12 миллиардов параметров.

<i>Если ввести запрос «кресло в форме авокадо», нейросеть предложит следующие изображения. <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Fopenai.com%2F&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a> </i>

В ноябре того же года команда разработчиков, включая Лабораторию по искусственному интеллекту Сбербанка, выпустила генератор изображений по запросам на русском языке — ruDALL-E. Сейчас у нее уже несколько модификаций:

ruDALL-E Kandinsky — работает в приложениях «Салют» и Discord и генерирует изображения с помощью голосовых команд.

ruDALL-E Malevich — пожалуй, наиболее похожая на оригинальную DALL·E нейросеть. Принцип действия точно такой же: вводите текстовый запрос на русском языке, а ИИ возвращается с изображениями.
ruDALL-E Emojich — генерирует по текстовому описанию смайлики. Их можно использовать для стикеров, клипартов и прототипов.

<i>Изображение, сгенерированное телеграм-ботом ruDALL-E Malevich по запросу «дата-центр будущего». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fsber_rudalle_xl_bot&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

<i>Изображение, сгенерированное телеграм-ботом ruDALL-E Malevich по запросу «сисадмин года». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fsber_rudalle_xl_bot&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

В апреле 2022 года OpenAI представила DALL·E 2: качество картинок улучшилось до разрешения 1024х1024 пикселей, сократилось количество искажений и смазанных элементов. Еще нейросеть научилась редактировать уже готовые изображения: изменять композицию, тени и структуру.

<i>Нейросеть научилась удалять объекты, объединять непохожие друг на друга визуалы и создавать новые рисунки, опираясь на уже имеющиеся. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Fdall-e-2%2F&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

Конечно, нейросеть не совершенна. Так, например, пользователи обнаружили, что она не умеет считать. Если ввести запрос «семь красных яблок на стеклянном блюдце», то на картинке будет несколько яблок — но не факт, что именно семь. Также DALL·E 2 теряется, если запросить слишком много деталей.

Ниже попытки одного из пользователей получить изображение по сложному запросу: «маленький темноволосый мальчик, отдыхающий в постели, и седая пожилая женщина, сидящая в кресле рядом с кроватью у окна, сквозь которое льется солнце, диджитал-арт в стиле Pixar».

<i>Изображения по запросу. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.lesswrong.com%2Fposts%2FuKp6tBFStnsvrot5t%2Fwhat-dall-e-2-can-and-cannot-do&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

В официальном сообщении компании о выпуске DALL·E 2 в бету говорится, что пользователи, которые получили доступ к нейросети, теперь могут использовать сгенерированные изображения в коммерческих целях. Чтобы протестировать нейросеть самостоятельно, нужно встать в лист ожидания — и ждать, когда вам повезет. Это бесплатно.

«Начиная с сегодняшнего дня (20 июля 2022 года), пользователи получают полное право на коммерческое использование изображений, созданных ими с помощью DALL·E, включая право на перепечатку, продажу и создание мерча.

Пользователи сообщили нам, что с помощью DALL·E они хотят генерировать иллюстрации для детских книг, визуалы в SMM, игровой концепт-арт, мудборды и раскадровки для фильмов», — отметили разработчики.

К такому ходу уже прибегли в журнале Cosmopolitan. На обложке нового выпуска не было селебрити, заголовков про моду и успех, стильных нарядов. Только подпись: «Встречайте первую в мире обложку журнала, созданную искусственным интеллектом». И примечание ниже: «Это заняло всего 20 секунд».

<i>Обложка Cosmopolitan, созданная нейросетью. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.cosmopolitan.com%2Flifestyle%2Fa40314356%2Fdall-e-2-artificial-intelligence-cover%2F&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

На фоне новостей о DALL·E 2 пользователи спорят о том, какое будущее ждет дизайн. Да, нейросеть все еще генерирует неидеальные изображения по текстовому запросу, но ее быстрое развитие очевидно. А скорость, с которой готовится визуал, впечатляет.

Разработчики DALL·E 2 говорят, что не претендуют на лавры дизайнеров. На лендинге DALL·E 2 они написали: «Мы надеемся, что DALL·E 2 даст людям возможность творчески самовыражаться. Нейросеть также помогла нам понять, как системы искусственного интеллекта видят и понимают наш мир. Это критически важно для нашей цели по созданию искусственного интеллекта, приносящего пользу человечеству».

Кстати, DALL·E — не единственная нейросеть по генерации изображений.

Креативы, которые генерирует нейросеть Midjourney, впечатляют своей сложностью и оригинальностью. Они больше похожи на произведения искусства, чем на созданную искусственным интеллектом иллюстрацию.

<i>Изображение, сгенерированное Midjourney по запросу «Ты можешь уснуть за две минуты». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fincrussia.ru%2Fswitch%2Fmidjourney%2F&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

Также есть ИИ This Person Does Not Exist на основе нейросети StyleGAN от Nvidia. Система обработала миллионы портретов и теперь генерирует фото человеческих лиц, основываясь на собирательных образах людей. Это подходящее решение для тех, кто, например, ищет фейковые фото для отзывов или боится нарушить авторские права при использовании реальных фото. Каждый раз, когда вы перезагружаете страницу, ИИ создает новый портрет.

<i>Портрет, сгенерированный нейросетью This Person Does Not Exist. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fthispersondoesnotexist.com&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

У нейросети есть проблема с украшениями: она почти никогда не делает их одинаковыми и часто «срезает» на иллюстрации, оставляя только половину сережки. Но генерация нового портрета — дело пары секунд.

Еще одна интересная сеть — Colorize. Она раскрашивает черно-белые изображения в реалистичные цвета.

<i>Портрет, раскрашенный Colorize. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcolorize.cc&postId=477130" rel="nofollow noreferrer noopener" target="_blank">Источник</a></i>

Сможет ли DALL·E и другие нейросети заменить живых дизайнеров, особенно после разрешения коммерциализировать иллюстрации? Давайте обсудим в комментариях.

Подпишитесь на блог Selectel, чтобы не пропустить новые обзоры, новости и кейсы из мира IT и технологий.

Читать также:

#selectel #искусственныйинтеллект #dalle #нейросеть #midjourney

DALL·E: что мы знаем о молодой и многообещающей нейросети?

Чем знаменита DALL·E?

Что DALL·E 2 еще не умеет?

Коммерциализация диджитал-арта

Что дальше?