{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию Статьи редакции

Её уже прозвали главным конкурентом аналогичной нейросети DALL-E от OpenAI.

Google представила нейросеть Imagen, которая генерирует изображения на основе текста. Для этого используется метод диффузии: всё начинается с простого, можно сказать схематичного изображения, которое потом улучшается — до тех пор, пока ИИ не решит, что не может сделать его ещё более похожим на заданные параметры.

Imagen начинает с создания небольшого (64×64 пикселя) изображения, а затем выполняет два прохода «сверхвысокого разрешения», чтобы довести его до размера 1024×1024. Однако это не похоже на обычное масштабирование, поскольку суперразрешение AI создает новые детали на картинке, чтобы сделать её более похожей на «техническое задание», прописанное в текстовом запросе.

«Белоголовый орлан из шоколадного порошка, манго и взбитых сливок»
«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»
«Милый корги живет в доме, сделанном из суши»

Например, если дать Imagen задание создать изображение собаки на велосипеде, то в его первой версии размер глаза пса будет иметь ширину 3 пикселя, во второй — уже 12 пикселей, а в третьей — все 48 пикселей. Получается, ИИ работает подобно художнику, который начинает с грубого наброска, постепенно дополняя деталями и масштабируя.

«Крайне злая птица»
«Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники»
«Гигантская змея-кобра на ферме. Змея сделана из кукурузы»
«Талисман Android из бамбука»

В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Создатели Imagen сами сравнивают нейросеть с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI.

По оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

«Панда, создающая арт-латте»: слева — версия DALL-E, справа — Imagen

Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.

При этом разработчики Imagen изначально озаботились моральными проблемами, которые могут возникнуть в случае, если текстовое задание будет содержать неприемлемые материалы и, таким образом, усугублять имеющиеся в обществе предрассудки и стереотипы.

Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию.

разработчики Imagen

Требования к данным для моделей преобразования текста в изображение заставили исследователей в значительной степени полагаться на большие, в основном неконтролируемые наборы данных, извлечённые из Интернета. Хотя этот подход позволил в последние годы добиться быстрого прогресса в области алгоритмов, наборы данных такого рода часто отражают социальные стереотипы, уничижительные и вредные ассоциации с маргинализованными группами.

Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы. Imagen полагается на текстовые кодировщики, обученные на неконтролируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей.

Imagen пока находится на стадии тестирования: на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Когда Google предложит желающим воспользоваться Imagen, пока неясно.

«Голубая сойка стоит на большой корзине с радужными макаронами»
«Сиба-ину в кожаной куртке и шляпке катается на скейтборде»
«Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы»
«Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде»
«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке»
«Пара роботов ужинает на фоне Эйфелевой башни»
«Осьминог-инопланетянин проплывает через портал, читая газету»
«Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада»
0
102 комментария
Написать комментарий...
Аноним Аркадьевич

Сколько можно сделать супер дорогих NFT! Сколько людей наскамить!

Ответить
Развернуть ветку
Даюза Мильен

Таки для этого не нужен генератор картинок, не???

Ответить
Развернуть ветку
Артём Сергеевич

Сейчас ещё вам расскажут для перебора каких паролей делают квантовый компьютер!

Ответить
Развернуть ветку
alex b

Его делают не для перебора паролей, но если квантовый компьютер станет доступным - текущие алгоритмы шифрования вроде того же sha256 потеряют смысл, сгенерить приватный ключ не составит труда, это сейчас для подбора надо охуллиард лет, там счет пойдет на часы

Ответить
Развернуть ветку
Даюза Мильен

Уфффф, откройте окно.
Тред был пропитан сатирой...

Ответить
Развернуть ветку
99 комментариев
Раскрывать всегда