DALL·E — революция в генерации изображений от OpenAI
DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…
Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.
Как и GPT-3, DALL·E это языковая модель типа трансформер.
Но это еще не все
Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:
Исследование когнитивных способностей DALL·E
Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.
С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:
Географические познания DALL·E
Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.
Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.
Как это работает
Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.
Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.
Этот пост подготовлен Телеграм каналом эйай ньюз, где вы можете найти еще больше свежих новостей из мира AI.
Там я пишу про алгоритмы простым языком, но с профессиональной точки зрения, комментируя (а иногда и опровергая) то, что могут написать журналисты. Присоединяйтесь!
Выключайте этот ваш ИИ, страшно уже
Не бойся, кожаный мешок, это просто картинки (пока)
Очередное чудесное применение перемножения матриц :)
Sunrise - это рассвет.
Sunset - закат.
Исправьте
Спасибо, без задней мысли написал!
Эта хуйня (выпадающий список) немного разочаровала канеш, видимо под каждый набор картинок нужно обучать и обучать
Когда в фотошопе появится, потоковым дизайнерам и художникам пизда. Вместо 5 таких можно сажать одного чтобы дорисовывал за нейросетью
а где можно потестить эту нейросеть, как на картинке?