DALL·E — революция в генерации изображений от OpenAI

DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…

Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.

Запрос: гостинная комната с двумя белыми креслами и картиной колизея. Нейросеть DALL·E (OpenAI)

Запрос: профессиональное высококачественный эмодзи влюбленного стакана бабл-ти. Нейросеть DALL·E (OpenAI)

Как и GPT-3, DALL·E это языковая модель типа трансформер.

Запрос: макрофотография мозгового коралла Нейросеть DALL·E (OpenAI)

Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:

Запрос: капибара из (3D) вокселей сидит в поле Нейросеть DALL·E (OpenAI)

Запрос: белый куб смотрящий на свое отражение в зеркале Нейросеть DALL·E (OpenAI)

Запрос: [изображение в стиле ...] капибары сидящей в поле на рассвете Нейросеть DALL·E (OpenAI)

Запрос: вывеска магазина с надписью OpenAI Нейросеть DALL·E (OpenAI)

Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.

С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:

Запрос: матрица с недостающим элементом в правом нижнем углу Нейросеть DALL·E (OpenAI)

Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.

Запрос: фото alamo square, caн франциско, с улицы ночью Нейросеть DALL·E (OpenAI)

Запрос: фото моста золотые ворота в сан франциско Нейросеть DALL·E (OpenAI)

Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.

Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.

Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.

Этот пост подготовлен Телеграм каналом эйай ньюз, где вы можете найти еще больше свежих новостей из мира AI.
Там я пишу про алгоритмы простым языком, но с профессиональной точки зрения, комментируя (а иногда и опровергая) то, что могут написать журналисты. Присоединяйтесь!
Леша

DALL·E — революция в генерации изображений от OpenAI

Но это еще не все

Исследование когнитивных способностей DALL·E

Географические познания DALL·E

Как это работает