DALL·E — революция в генерации изображений от OpenAI

DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…

Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.

Запрос: гостинная комната с двумя белыми креслами и картиной колизея.  Нейросеть DALL·E (OpenAI)
Запрос: гостинная комната с двумя белыми креслами и картиной колизея. Нейросеть DALL·E (OpenAI)
Запрос: профессиональное высококачественный эмодзи влюбленного стакана бабл-ти.  Нейросеть DALL·E (OpenAI)
Запрос: профессиональное высококачественный эмодзи влюбленного стакана бабл-ти.  Нейросеть DALL·E (OpenAI)

Как и GPT-3, DALL·E это языковая модель типа трансформер.

Запрос: макрофотография мозгового коралла Нейросеть DALL·E (OpenAI)
Запрос: макрофотография мозгового коралла Нейросеть DALL·E (OpenAI)

Но это еще не все

Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:

Запрос: капибара из (3D) вокселей сидит в поле Нейросеть DALL·E (OpenAI)
Запрос: капибара из (3D) вокселей сидит в поле Нейросеть DALL·E (OpenAI)
Запрос: белый куб смотрящий на свое отражение в зеркале Нейросеть DALL·E (OpenAI)
Запрос: белый куб смотрящий на свое отражение в зеркале Нейросеть DALL·E (OpenAI)
Запрос: [изображение в стиле ...] капибары сидящей в поле на рассвете Нейросеть DALL·E (OpenAI)
Запрос: [изображение в стиле ...] капибары сидящей в поле на рассвете Нейросеть DALL·E (OpenAI)
Запрос: вывеска магазина с надписью OpenAI Нейросеть DALL·E (OpenAI)
Запрос: вывеска магазина с надписью OpenAI Нейросеть DALL·E (OpenAI)

Исследование когнитивных способностей DALL·E

Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.

С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:

Запрос: матрица с недостающим элементом в правом нижнем углу Нейросеть DALL·E (OpenAI)
Запрос: матрица с недостающим элементом в правом нижнем углу Нейросеть DALL·E (OpenAI)

Географические познания DALL·E

Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.

Запрос: фото alamo square, caн франциско, с улицы ночью Нейросеть DALL·E (OpenAI)
Запрос: фото alamo square, caн франциско, с улицы ночью Нейросеть DALL·E (OpenAI)
Запрос: фото моста золотые ворота в сан франциско Нейросеть DALL·E (OpenAI)
Запрос: фото моста золотые ворота в сан франциско Нейросеть DALL·E (OpenAI)

Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.

Как это работает

Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.

Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.

Этот пост подготовлен Телеграм каналом эйай ньюз, где вы можете найти еще больше свежих новостей из мира AI.
Там я пишу про алгоритмы простым языком, но с профессиональной точки зрения, комментируя (а иногда и опровергая) то, что могут написать журналисты. Присоединяйтесь!

Леша, Facebook AI Research
3333
34 комментария

Выключайте этот ваш ИИ, страшно уже

8
Ответить

Не бойся, кожаный мешок, это просто картинки (пока)

13
Ответить

Очередное чудесное применение перемножения матриц :)

5
Ответить

Sunrise - это рассвет.
Sunset - закат.
Исправьте

3
Ответить

Спасибо, без задней мысли написал!

Ответить

Эта хуйня (выпадающий список) немного разочаровала канеш, видимо под каждый набор картинок нужно обучать и обучать

Когда в фотошопе появится, потоковым дизайнерам и художникам пизда. Вместо 5 таких можно сажать одного чтобы дорисовывал за нейросетью

3
Ответить

а где можно потестить эту нейросеть, как на картинке?

Ответить