DALL·E — революция в генерации изображений от OpenAI

DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…

Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.

Запрос: гостинная комната с двумя белыми креслами и картиной колизея. Нейросеть DALL·E (OpenAI)
Запрос: профессиональное высококачественный эмодзи влюбленного стакана бабл-ти.  Нейросеть DALL·E (OpenAI)

Как и GPT-3, DALL·E это языковая модель типа трансформер.

Запрос: макрофотография мозгового коралла Нейросеть DALL·E (OpenAI)

Но это еще не все

Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:

Запрос: капибара из (3D) вокселей сидит в поле Нейросеть DALL·E (OpenAI)
Запрос: белый куб смотрящий на свое отражение в зеркале Нейросеть DALL·E (OpenAI)
Запрос: [изображение в стиле ...] капибары сидящей в поле на рассвете Нейросеть DALL·E (OpenAI)
Запрос: вывеска магазина с надписью OpenAI Нейросеть DALL·E (OpenAI)

Исследование когнитивных способностей DALL·E

Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.

С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:

Запрос: матрица с недостающим элементом в правом нижнем углу Нейросеть DALL·E (OpenAI)

Географические познания DALL·E

Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.

Запрос: фото alamo square, caн франциско, с улицы ночью Нейросеть DALL·E (OpenAI)
Запрос: фото моста золотые ворота в сан франциско Нейросеть DALL·E (OpenAI)

Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.

Как это работает

Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.

Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.

Этот пост подготовлен Телеграм каналом эйай ньюз, где вы можете найти еще больше свежих новостей из мира AI.
Там я пишу про алгоритмы простым языком, но с профессиональной точки зрения, комментируя (а иногда и опровергая) то, что могут написать журналисты. Присоединяйтесь!

Леша, Facebook AI Research
0
34 комментария
Написать комментарий...
Паша Мороз

Выключайте этот ваш ИИ, страшно уже

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Не бойся, кожаный мешок, это просто картинки (пока)

Ответить
Развернуть ветку
Stas Klymenko

Окей. Их алгоритмы уже обыгрывают про игроков в Доту, печатают текст и рисуют. Когда уже смогут так само по запросам генерировать схемы белков по заданным требованиям или создавать идеальные технические архитектуры для электронных устройств? :)

Ответить
Развернуть ветку
Паша Мороз

Кажется управлять военной техникой они начнут раньше, чем делать что-то настолько созидательное :)

Ответить
Развернуть ветку
Stas Klymenko

Нисколько не удивлен. 
В любой игре практически нереально играть против читера, который использует софт для автоматической стрельбы, например. Пока кожаные мешки бывают не в настроении, делают ошибки, рука дрогнула и т.д., алгоритмы все сделают правильно и вовремя. 

Будет интересно посмотреть на будущее, в котором войны будут проходить вообще без людей, а только с дронами. Как какой-нибудь War Thunder. 

Ответить
Развернуть ветку
Паша Мороз

Вот и я о том же, что всё к тому и идёт. И как бы оно и очевидно было что военные рано или поздно возьмут ИИ себе на вооружение. 
Но тут индустрия ещё не успела как следует встать на ноги - а её уже хотят использовать как оружие. Мне кажется это как-то ну оооочень рано :/

Ответить
Развернуть ветку
Stas Klymenko

Кто первым интегрирует - будет на коне. 

Ответить
Развернуть ветку
Pavel Ivanov

Сейчас по всему миру ведутся в основном гибридные и ассиметричные войны, поэтому вполне возможно, что кто-то уже давно на коне.

А интегрировать ИИ в классическое вооружение пока что экономически нецелесообразно. Обычные люди и обычное вооружение обходятся гораздо дешевле (реализация, обслуживание, эксплуатация, обучение и т.д.)

Ответить
Развернуть ветку
Драка вегетарианца с людоедом

Так речь идёт не о роботизации пехоты, которую пока что действительно нечем толком заменять, а об интеграции ИИ в ту же авиацию. Способности пилотируемых истребителей уже упираются в максимально допустимые для человека перегрузки, после которых пилот не встанет.
Тут к бабке не ходи, следующие поколения истребителей уже будут дронами. 

Ответить
Развернуть ветку
Pavel Ivanov

Роботизированная техника давно существует – есть даже танки полностью на радиоуправлении (без людей внутри), но даже в горячих точках такой техники не было... увы. Если с проблемой может справиться человек, рискуют человеком, а не дорогостоящей машиной. Такова экономика войны.

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Таковы правила оборонки. Если это может ходить, ползать, рыть, рисовать, или сочинять стихи стоя на голове — молчи и приматывай к этому изолентой пушку, пригодится.

Ответить
Развернуть ветку
Victor Popov

Очередное чудесное применение перемножения матриц :)

Ответить
Развернуть ветку
Вы в федеральном розыске

Sunrise - это рассвет.
Sunset - закат.
Исправьте

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Спасибо, без задней мысли написал!

Ответить
Развернуть ветку
Илитный Иксперт

Эта хуйня (выпадающий список) немного разочаровала канеш, видимо под каждый набор картинок нужно обучать и обучать

Когда в фотошопе появится, потоковым дизайнерам и художникам пизда. Вместо 5 таких можно сажать одного чтобы дорисовывал за нейросетью

Ответить
Развернуть ветку
Ivan Demyanets

а где можно потестить эту нейросеть, как на картинке?

Ответить
Развернуть ветку
Pavel Ivanov

Я знаю, как хакнуть этот ИИ. Если по-русски запросить "президент", то он не сможет выдать никаких вариаций, и будет генерировать одно и то же изображение =D

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

😂

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Это я решил не вставлять, чтобы не портить психику...

Ответить
Развернуть ветку
Ivan Demyanets

это же прекрасно, то что мне нужно ) как можно потестить эту нейросеть?

Ответить
Развернуть ветку
Alex B

И еще один вопрос, на сколько это применимо для специфических задач, как сложно будет переобучить модель / собрать данные?

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Зная Open AI это будет практически нереально. Как и с GPT-3 это очень дорого и сложно перетренировывать такую модель, поэтому они и делают ставку на "одна модель для всего"

Ответить
Развернуть ветку
Game Studio

Где можно скачать или использовать программу

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Пока можно только поиграться с разными запросами на сайте. Выбор достаточно широк.

Ответить
Развернуть ветку
Game Studio

какие есть можете скинуть ссылку

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

https://openai.com/blog/dall-e/ все примеры там кликабельные, те слова что подчеркнуты можно менять.

Ответить
Развернуть ветку
Михаил Арнаутов

жесть

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Oleksii Sidorov
Автор

Графдизайнеры вздрогнули, узнав, кто будет преемником Иронова. Артлебедевым будет править...

Ответить
Развернуть ветку
Savchenko Ivan

Скоро человек превратится в гусеницу (похожего, кстати, на персонажа из Валли). И этот ИИ будет проецировать все что пожелаешь, а другие ИИ будут стимулировать нервные окончания. Сидя на диване можно побывать на Ниагаре, например, и накормить матрицу заодно. 

Ответить
Развернуть ветку
Alex B

как избавиться от "абстрактности", когда генерируешь текст (на вывесках, к примеру) или здания?
В большинстве примеров они просто плывут. 

Ответить
Развернуть ветку
Sarton

А что, она уже есть в открытом доступе, раз с ней так "играться" можно?
UPD, понял ;)

Ответить
Развернуть ветку
Ivan Demyanets

Кто умеет делать также? Напишите в лс.

Ответить
Развернуть ветку
Катерина

У меня получились очень прикольные дизайнерские чайники.

Ответить
Развернуть ветку
31 комментарий
Раскрывать всегда