{"id":9001,"title":"\u0417\u0430\u0447\u0435\u043c \u043d\u0443\u0436\u0435\u043d \u0444\u0438\u043d\u0442\u0435\u0445 \u043a\u0430\u043a \u0441\u0435\u0440\u0432\u0438\u0441. \u041d\u0430\u043f\u0430\u0434\u0430\u0435\u043c \u0441 \u043a\u0440\u0438\u0442\u0438\u043a\u043e\u0439","url":"\/redirect?component=advertising&id=9001&url=https:\/\/vc.ru\/promo\/321129-kritika-finteh-kak-servis-eto-dorogo-slozhno-i-slishkom-universalno&placeBit=1&hash=0f11beca127b0260f19ba1d57bd2ebb2f81750b56fe49269b93cb930545c9faa","isPaidAndBannersEnabled":false}
Machine learning
Oleksii Sidorov

DALL·E — революция в генерации изображений от OpenAI

DALL·E от новый алгоритм построенный на архитектуре GPT-3 обученный генерировать изображения по их текстовому описанию. Для этого использовался специальный датасет из пар «Текст»—«Изображение» и нейронная сеть величиной в 12 миллиардов параметров. В результате DALL·E способен генерировать иллюстрации, реалистичные фото, новые несуществующие комбинации объектов, а также: писать на изображении текст, проходить IQ тесты, генерировать изображение по заданной части, и многое, многое другое…

Объяснить лучше, на сколько это удивительно помогут только примеры. В каждом из них вверху задан текстовый запрос (или текст + часть изображения), а внизу: результаты генерации нейросети.

Запрос: гостинная комната с двумя белыми креслами и картиной колизея. Нейросеть DALL·E (OpenAI)
Запрос: профессиональное высококачественный эмодзи влюбленного стакана бабл-ти.  Нейросеть DALL·E (OpenAI)

Как и GPT-3, DALL·E это языковая модель типа трансформер.

Запрос: макрофотография мозгового коралла Нейросеть DALL·E (OpenAI)

Но это еще не все

Исследователи начали изучать способности DALL·E понимать сложные абстрактные комбинации, изменять стиль и графику изображений, писать текст. Вот что из этого получилось:

Запрос: капибара из (3D) вокселей сидит в поле Нейросеть DALL·E (OpenAI)
Запрос: белый куб смотрящий на свое отражение в зеркале Нейросеть DALL·E (OpenAI)
Запрос: [изображение в стиле ...] капибары сидящей в поле на рассвете Нейросеть DALL·E (OpenAI)
Запрос: вывеска магазина с надписью OpenAI Нейросеть DALL·E (OpenAI)

Исследование когнитивных способностей DALL·E

Для этого исследователи использовали Тест Рейвена — визуальный IQ тест, где ребенку, или взрослому испытуемому, нужно найти закономерности в матрице и предсказать недостающий элемент.

С этим заданием нейросеть справилась впечатляюще, во многих случаях находя логически правильные решения:

Запрос: матрица с недостающим элементом в правом нижнем углу Нейросеть DALL·E (OpenAI)

Географические познания DALL·E

Исследователи также попросили нейросеть сгенерировать конкретные географические места и достопримечательности. Ниже примеры результатов для Alamo Square и моста Золотые Ворота в Сан-Франциско. По словам авторов, сгенерированные картинки вызывают ощущение дежавю — показывают очень знакомые нам образы и места, которые на самом деле не существуют.

Запрос: фото alamo square, caн франциско, с улицы ночью Нейросеть DALL·E (OpenAI)
Запрос: фото моста золотые ворота в сан франциско Нейросеть DALL·E (OpenAI)

Еще больше примеров и результатов экспериментов вы можете найти в оригинальной статье.

Как это работает

Не вдаваясь в технические подробности, DALL·E — это трансформер состоящий из одного декодера, который принимает на вход последовательность из 1280 токенов, где 256 содержат текст, в 1024 оставшихся — части изображения. По сути, алгоритм обрабатывает регионы изображения так же как слова в тексте, и генерирует новые изображения таким же образом, как GPT-3 генерирует новый текст.

Начиная с прошлого года, использование языковых алгоритмов для зрительных задач стало новым трендом в машинном обучении, в котором исследователи видят большой потенциал.

Этот пост подготовлен Телеграм каналом эйай ньюз, где вы можете найти еще больше свежих новостей из мира AI.
Там я пишу про алгоритмы простым языком, но с профессиональной точки зрения, комментируя (а иногда и опровергая) то, что могут написать журналисты. Присоединяйтесь!

Леша
Facebook AI Research
0
34 комментария
Популярные
По порядку
Написать комментарий...

Выключайте этот ваш ИИ, страшно уже

8

Не бойся, кожаный мешок, это просто картинки (пока)

12

Окей. Их алгоритмы уже обыгрывают про игроков в Доту, печатают текст и рисуют. Когда уже смогут так само по запросам генерировать схемы белков по заданным требованиям или создавать идеальные технические архитектуры для электронных устройств? :)

3

Кажется управлять военной техникой они начнут раньше, чем делать что-то настолько созидательное :)

6

Нисколько не удивлен. 
В любой игре практически нереально играть против читера, который использует софт для автоматической стрельбы, например. Пока кожаные мешки бывают не в настроении, делают ошибки, рука дрогнула и т.д., алгоритмы все сделают правильно и вовремя. 

Будет интересно посмотреть на будущее, в котором войны будут проходить вообще без людей, а только с дронами. Как какой-нибудь War Thunder. 

3

Вот и я о том же, что всё к тому и идёт. И как бы оно и очевидно было что военные рано или поздно возьмут ИИ себе на вооружение. 
Но тут индустрия ещё не успела как следует встать на ноги - а её уже хотят использовать как оружие. Мне кажется это как-то ну оооочень рано :/

1

Кто первым интегрирует - будет на коне. 

0

Сейчас по всему миру ведутся в основном гибридные и ассиметричные войны, поэтому вполне возможно, что кто-то уже давно на коне.

А интегрировать ИИ в классическое вооружение пока что экономически нецелесообразно. Обычные люди и обычное вооружение обходятся гораздо дешевле (реализация, обслуживание, эксплуатация, обучение и т.д.)

0

Так речь идёт не о роботизации пехоты, которую пока что действительно нечем толком заменять, а об интеграции ИИ в ту же авиацию. Способности пилотируемых истребителей уже упираются в максимально допустимые для человека перегрузки, после которых пилот не встанет.
Тут к бабке не ходи, следующие поколения истребителей уже будут дронами. 

0

Роботизированная техника давно существует – есть даже танки полностью на радиоуправлении (без людей внутри), но даже в горячих точках такой техники не было... увы. Если с проблемой может справиться человек, рискуют человеком, а не дорогостоящей машиной. Такова экономика войны.

0

Таковы правила оборонки. Если это может ходить, ползать, рыть, рисовать, или сочинять стихи стоя на голове — молчи и приматывай к этому изолентой пушку, пригодится.

0

Очередное чудесное применение перемножения матриц :)

5

Sunrise - это рассвет.
Sunset - закат.
Исправьте

3

Спасибо, без задней мысли написал!

0

Эта хуйня (выпадающий список) немного разочаровала канеш, видимо под каждый набор картинок нужно обучать и обучать

Когда в фотошопе появится, потоковым дизайнерам и художникам пизда. Вместо 5 таких можно сажать одного чтобы дорисовывал за нейросетью

3

а где можно потестить эту нейросеть, как на картинке?

0

Я знаю, как хакнуть этот ИИ. Если по-русски запросить "президент", то он не сможет выдать никаких вариаций, и будет генерировать одно и то же изображение =D

2

😂

0

Это я решил не вставлять, чтобы не портить психику...

2

это же прекрасно, то что мне нужно ) как можно потестить эту нейросеть?

0

И еще один вопрос, на сколько это применимо для специфических задач, как сложно будет переобучить модель / собрать данные?

2

Зная Open AI это будет практически нереально. Как и с GPT-3 это очень дорого и сложно перетренировывать такую модель, поэтому они и делают ставку на "одна модель для всего"

0

Где можно скачать или использовать программу

1

Пока можно только поиграться с разными запросами на сайте. Выбор достаточно широк.

0

какие есть можете скинуть ссылку

0

https://openai.com/blog/dall-e/ все примеры там кликабельные, те слова что подчеркнуты можно менять.

1

Ok, DALL-E, сгенерируй мне такой логотип, чтобы Лебедев заплакал

0

Графдизайнеры вздрогнули, узнав, кто будет преемником Иронова. Артлебедевым будет править...

2

Скоро человек превратится в гусеницу (похожего, кстати, на персонажа из Валли). И этот ИИ будет проецировать все что пожелаешь, а другие ИИ будут стимулировать нервные окончания. Сидя на диване можно побывать на Ниагаре, например, и накормить матрицу заодно. 

0

как избавиться от "абстрактности", когда генерируешь текст (на вывесках, к примеру) или здания?
В большинстве примеров они просто плывут. 

0

А что, она уже есть в открытом доступе, раз с ней так "играться" можно?
UPD, понял ;)

0

Кто умеет делать также? Напишите в лс.

0

У меня получились очень прикольные дизайнерские чайники.

0
Читать все 34 комментария
Плюшки – от робота, а преференции – для резидента

Как наладить взаимовыгодное сотрудничество на территории ОЭЗ «Технополис Москва».

Юбилей кешбэка: как в 130 лет выглядеть «на все сто»

Кешбэк — возврат определенного процента наличных на карточный счет клиента после покупок в магазинах-партнерах банка или полетах на самолетах авиакомпаний-партнеров-банка или вообще за любые покупки в конкретный период времени — очень популярен в народе. Он выглядит как современная модная финансовая фишка

Как обустроить домашнюю студию звукозаписи при скромном бюджете Статьи редакции

Почему сведённый трек нужно проверять на паршивой Bluetooth-колонке, какие плагины выгоднее брать новичку и с каким синтезатором работал Ханс Циммер, создавая саундтрек к «Тёмному рыцарю», — в пересказе Pitchfork.

AudioMunk
eBay: 64% покупателей не жалеют о своих покупках в Черную пятницу

Черная пятница — одно из главных событий этой недели: тысячи покупателей находятся в поиске лучших скидок. А что происходит после Черной пятницы? eBay опросил около 1000 россиян и выяснил, считают ли они выгодными покупки, совершенные во время самой большой распродажи года.

Разговор PRO: аналитика рекламы

Эксперты компании Registratura, входящей в iConText Group, вместе со своим клиентом «Олант» приняли участие в спецпроекте AdIndex.ru, где поговорили о рекламной аналитике.
Сергей Ерофеев, генеральный директор Registratura, Андрей Сахаров, руководитель отдела продаж Registratura, и Филипп Иванов, директор по интернет-маркетингу и e-commerce «Олант»…

«Как иронично, что фирме в сфере психического здоровья плевать на психическое здоровье собственных работников» Статьи редакции

Сотрудники Spring Health жалуются на соучредительницу Эйприл Го: она запугивает их, увольняет при всех, вынуждает работать по 70 часов в неделю и не нанимает тех, кто спрашивает про переработки. Го объясняет: «Мы носимся как безголовые цыплята, потому что на кону человеческие жизни».

Эйприл Го — на ноябрь 2021 года самая молодая женщина-директор компании с оценкой более $1 млрд Slush
Мошенники якобы сделали дубликат моей SIM карты, позвонили в Сбербанк и заказали перевыпуск моих пластиковых карт
IKEA начала сдавать в Токио квартиры в 10 м² за $0,86 в месяц, чтобы показать, что в них тоже можно жить Статьи редакции

Внутри есть мини-спальня, рабочая зона, диван, стиральная машина и другое.

Зимний набор на оплачиваемую стажировку в Тинькофф Старт: какие задачи решают стажеры

Стажировка пройдет по направлениям: аналитика, QA, бэкенд-разработка (Java, C++, Python, Scala, .Net, Golang), фронтенд, мобильная разработка (iOS и Android), ML, маркетинг и менеджмент образовательных проектов.

null