{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

24 мая 2022 24.05.2022

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию Статьи редакции

Её уже прозвали главным конкурентом аналогичной нейросети DALL-E от OpenAI.

Google представила нейросеть Imagen, которая генерирует изображения на основе текста. Для этого используется метод диффузии: всё начинается с простого, можно сказать схематичного изображения, которое потом улучшается — до тех пор, пока ИИ не решит, что не может сделать его ещё более похожим на заданные параметры.

Imagen начинает с создания небольшого (64×64 пикселя) изображения, а затем выполняет два прохода «сверхвысокого разрешения», чтобы довести его до размера 1024×1024. Однако это не похоже на обычное масштабирование, поскольку суперразрешение AI создает новые детали на картинке, чтобы сделать её более похожей на «техническое задание», прописанное в текстовом запросе.

«Белоголовый орлан из шоколадного порошка, манго и взбитых сливок»

«Хромированная утка с золотым клювом спорит со злой черепахой в лесу»

«Милый корги живет в доме, сделанном из суши»

Например, если дать Imagen задание создать изображение собаки на велосипеде, то в его первой версии размер глаза пса будет иметь ширину 3 пикселя, во второй — уже 12 пикселей, а в третьей — все 48 пикселей. Получается, ИИ работает подобно художнику, который начинает с грубого наброска, постепенно дополняя деталями и масштабируя.

«Крайне злая птица»

«Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники»

«Гигантская змея-кобра на ферме. Змея сделана из кукурузы»

«Талисман Android из бамбука»

В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Создатели Imagen сами сравнивают нейросеть с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI.

По оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

«Панда, создающая арт-латте»: слева — версия DALL-E, справа — Imagen

Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.

При этом разработчики Imagen изначально озаботились моральными проблемами, которые могут возникнуть в случае, если текстовое задание будет содержать неприемлемые материалы и, таким образом, усугублять имеющиеся в обществе предрассудки и стереотипы.

Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию.

разработчики Imagen

Требования к данным для моделей преобразования текста в изображение заставили исследователей в значительной степени полагаться на большие, в основном неконтролируемые наборы данных, извлечённые из Интернета. Хотя этот подход позволил в последние годы добиться быстрого прогресса в области алгоритмов, наборы данных такого рода часто отражают социальные стереотипы, уничижительные и вредные ассоциации с маргинализованными группами.

Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы. Imagen полагается на текстовые кодировщики, обученные на неконтролируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей.

Imagen пока находится на стадии тестирования: на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Когда Google предложит желающим воспользоваться Imagen, пока неясно.

«Голубая сойка стоит на большой корзине с радужными макаронами»

«Сиба-ину в кожаной куртке и шляпке катается на скейтборде»

«Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы»

«Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде»

«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке»

«Пара роботов ужинает на фоне Эйфелевой башни»

«Осьминог-инопланетянин проплывает через портал, читая газету»

«Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада»

#новость #нейросети #google #imagen

10 показов

84K открытий

1 репост

102 комментария

Написать комментарий...

Показать всё . Вы видите только часть дискуссии

Аккаунт удален

24.05.2022

Комментарий недоступен

Ответить

Развернуть ветку

DxdV

24.05.2022

Да там буквально под картинками написано как в оригинале текст задан

Ответить

Развернуть ветку

Аккаунт удален

24.05.2022

Комментарий недоступен

Ответить

Развернуть ветку

Lmao

24.05.2022

наверно потому что опущен is и сетка посчитала panda making - как стиль арта на латте

Ответить

Развернуть ветку

Аккаунт удален

24.05.2022

Комментарий недоступен

Ответить

Развернуть ветку

Alexander Kirillov

25.05.2022

Не знаю насчёт DALL-E, но Imagen, видимо, изобразила «панду, делающую латте искусством»

Ответить

Развернуть ветку

Аккаунт удален

25.05.2022

Комментарий недоступен

Ответить

Развернуть ветку

Максим Гомбоев

25.05.2022

Нет. Латте-арт - это выражение такое. Как раз означает узоры молоком в кофейной чашке.
Сетка поняла его верно.
В первом случае был артикль A поэтому сетка поняла, что речь о какой-то конкретной панде. Был пропущен IS, но в разговорной речи такое бывает (хоть и не по правилам).
По итогу прочла как "Панда делающая латте-арт"

Ответить

Развернуть ветку

Показать 102 комментария . Вы видите только часть дискуссии

Написать комментарий...

99 комментариев

Раскрывать всегда