DALL·E — революция в генерации изображений от OpenAI
DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…
Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.
Как и GPT-3, DALL·E это языковая модель типа трансформер.
Но это еще не все
Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:
Исследование когнитивных способностей DALL·E
Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.
С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:
Географические познания DALL·E
Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.
Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.
Как это работает
Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.
Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.
Выключайте этот ваш ИИ, страшно уже
Не бойся, кожаный мешок, это просто картинки (пока)
Окей. Их алгоритмы уже обыгрывают про игроков в Доту, печатают текст и рисуют. Когда уже смогут так само по запросам генерировать схемы белков по заданным требованиям или создавать идеальные технические архитектуры для электронных устройств? :)
Кажется управлять военной техникой они начнут раньше, чем делать что-то настолько созидательное :)
Нисколько не удивлен.
В любой игре практически нереально играть против читера, который использует софт для автоматической стрельбы, например. Пока кожаные мешки бывают не в настроении, делают ошибки, рука дрогнула и т.д., алгоритмы все сделают правильно и вовремя.
Будет интересно посмотреть на будущее, в котором войны будут проходить вообще без людей, а только с дронами. Как какой-нибудь War Thunder.
Вот и я о том же, что всё к тому и идёт. И как бы оно и очевидно было что военные рано или поздно возьмут ИИ себе на вооружение.
Но тут индустрия ещё не успела как следует встать на ноги - а её уже хотят использовать как оружие. Мне кажется это как-то ну оооочень рано :/
Кто первым интегрирует - будет на коне.
Сейчас по всему миру ведутся в основном гибридные и ассиметричные войны, поэтому вполне возможно, что кто-то уже давно на коне.
А интегрировать ИИ в классическое вооружение пока что экономически нецелесообразно. Обычные люди и обычное вооружение обходятся гораздо дешевле (реализация, обслуживание, эксплуатация, обучение и т.д.)
Так речь идёт не о роботизации пехоты, которую пока что действительно нечем толком заменять, а об интеграции ИИ в ту же авиацию. Способности пилотируемых истребителей уже упираются в максимально допустимые для человека перегрузки, после которых пилот не встанет.
Тут к бабке не ходи, следующие поколения истребителей уже будут дронами.
Роботизированная техника давно существует – есть даже танки полностью на радиоуправлении (без людей внутри), но даже в горячих точках такой техники не было... увы. Если с проблемой может справиться человек, рискуют человеком, а не дорогостоящей машиной. Такова экономика войны.
Таковы правила оборонки. Если это может ходить, ползать, рыть, рисовать, или сочинять стихи стоя на голове — молчи и приматывай к этому изолентой пушку, пригодится.
Очередное чудесное применение перемножения матриц :)
Sunrise - это рассвет.
Sunset - закат.
Исправьте
Спасибо, без задней мысли написал!
Эта хуйня (выпадающий список) немного разочаровала канеш, видимо под каждый набор картинок нужно обучать и обучать
Когда в фотошопе появится, потоковым дизайнерам и художникам пизда. Вместо 5 таких можно сажать одного чтобы дорисовывал за нейросетью
а где можно потестить эту нейросеть, как на картинке?
Я знаю, как хакнуть этот ИИ. Если по-русски запросить "президент", то он не сможет выдать никаких вариаций, и будет генерировать одно и то же изображение =D
😂
Это я решил не вставлять, чтобы не портить психику...
это же прекрасно, то что мне нужно ) как можно потестить эту нейросеть?
И еще один вопрос, на сколько это применимо для специфических задач, как сложно будет переобучить модель / собрать данные?
Зная Open AI это будет практически нереально. Как и с GPT-3 это очень дорого и сложно перетренировывать такую модель, поэтому они и делают ставку на "одна модель для всего"
Где можно скачать или использовать программу
Пока можно только поиграться с разными запросами на сайте. Выбор достаточно широк.
какие есть можете скинуть ссылку
https://openai.com/blog/dall-e/ все примеры там кликабельные, те слова что подчеркнуты можно менять.
жесть
Комментарий недоступен
Графдизайнеры вздрогнули, узнав, кто будет преемником Иронова. Артлебедевым будет править...
Скоро человек превратится в гусеницу (похожего, кстати, на персонажа из Валли). И этот ИИ будет проецировать все что пожелаешь, а другие ИИ будут стимулировать нервные окончания. Сидя на диване можно побывать на Ниагаре, например, и накормить матрицу заодно.
как избавиться от "абстрактности", когда генерируешь текст (на вывесках, к примеру) или здания?
В большинстве примеров они просто плывут.
А что, она уже есть в открытом доступе, раз с ней так "играться" можно?
UPD, понял ;)
Кто умеет делать также? Напишите в лс.
У меня получились очень прикольные дизайнерские чайники.