Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию Статьи редакции
Её уже прозвали главным конкурентом аналогичной нейросети DALL-E от OpenAI.
Google представила нейросеть Imagen, которая генерирует изображения на основе текста. Для этого используется метод диффузии: всё начинается с простого, можно сказать схематичного изображения, которое потом улучшается — до тех пор, пока ИИ не решит, что не может сделать его ещё более похожим на заданные параметры.
Imagen начинает с создания небольшого (64×64 пикселя) изображения, а затем выполняет два прохода «сверхвысокого разрешения», чтобы довести его до размера 1024×1024. Однако это не похоже на обычное масштабирование, поскольку суперразрешение AI создает новые детали на картинке, чтобы сделать её более похожей на «техническое задание», прописанное в текстовом запросе.
Например, если дать Imagen задание создать изображение собаки на велосипеде, то в его первой версии размер глаза пса будет иметь ширину 3 пикселя, во второй — уже 12 пикселей, а в третьей — все 48 пикселей. Получается, ИИ работает подобно художнику, который начинает с грубого наброска, постепенно дополняя деталями и масштабируя.
В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Создатели Imagen сами сравнивают нейросеть с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI.
По оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.
Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.
При этом разработчики Imagen изначально озаботились моральными проблемами, которые могут возникнуть в случае, если текстовое задание будет содержать неприемлемые материалы и, таким образом, усугублять имеющиеся в обществе предрассудки и стереотипы.
Требования к данным для моделей преобразования текста в изображение заставили исследователей в значительной степени полагаться на большие, в основном неконтролируемые наборы данных, извлечённые из Интернета. Хотя этот подход позволил в последние годы добиться быстрого прогресса в области алгоритмов, наборы данных такого рода часто отражают социальные стереотипы, уничижительные и вредные ассоциации с маргинализованными группами.
Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы. Imagen полагается на текстовые кодировщики, обученные на неконтролируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей.
Imagen пока находится на стадии тестирования: на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Когда Google предложит желающим воспользоваться Imagen, пока неясно.
"Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию."
красивое...
Миллион китайцев рисует картинки в Фотошопе за пару минут ...
Красивое...
И нужное...
У меня первая мысль была Саша Грей в ковбойской шляпе... Окончание, пожалуй, не буду дописывать)))
Комментарий недоступен
"на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных"
Можно покликать по пяти уже нарисованным картинкам. О ну прям сразу видно ИИ, нейросеть и вот это всё.
5 условий if и else.
Ну если бы реально работало прям как они описали, то это была бы революция во многих сферах.
If else
Комментарий недоступен
Эпоха фотостоков уходит в прошлое, когда нейросеть нарисует тебе любую дичь по по твоему описанию. 《Нейросеть, покажи откуда готовилось нападение》
Боюсь, что ответы на такие запросы будут уже зашиты в тело движка, как константа, дабы не оконфузиться перед своими господами.
Скоро текстовое общение вымрет и будем общаться картинками
Сколько можно сделать супер дорогих NFT! Сколько людей наскамить!
Таки для этого не нужен генератор картинок, не???
Жигули подушка 0 евро палка газ народ сдавать дорого
Как заклинание прочитал.
для этого и генератор не нужен, на алиэкспрессе наверняка найдется
А как работает ИИ с нейросетью, когда менеджер ставит задачу, что сгенерировать нужно вчера?
Меняет дату сгенерированного файла на один день на "вчера" и отправляет по почте сегодня 💁🏽♂️
Ещё десять лет и начнется эра самодельных фильмов
Написал сценарий - и фильм сам снимается....
Комментарий недоступен
Да там буквально под картинками написано как в оригинале текст задан
Вдруг понял что главные утечки будущего это не персданные (это скучно), а корпоративные нейросети. Это будет веселое время )
Теперь представьте что с вашими персональными данными может сделать развитая нейросеть? Например сгенерировать компрометирующее видео, цифровые следы, фейки. Есть куда разгуляться фантазии.
Пожалуйста не генерируйте фурри.
Ой, не зря они опасаются (-:
Начнут так её испозовать, что Сальвадору нашему Дали и присниться не могло.
Так появится специализация: создатель тестовых образов для генерации картинки.
Похоже что людям в скором времени останется только лечь в капсулы и подпитывать ИИ энергией.
Только перед этим надо не забыть нажать кнопку получения импульсов для поступления серотонина.
Лишь бы не вымерли, как те крысы, которым дали кнопку от оргазма.
Комментарий недоступен
Если бы в 4K и вектор конвертила, то была бы польза. А так, в стоках быстрее можно найти.
Вопрос мощностей видеокарт.
Какой-нибудь vqgan на 16gb Tesla падает, если задать размер картинки 800х600. Но это пока. Через несколько лет будут доступны большие мощности.
Комментарий недоступен
«Панда, создающая арт-латте»: слева — версия DALL-E, справа — Imagen
Кажется, тут наоборот должно быть
Тут недавно статья была про генерацию логотипов. Какой мусор генерировала она, и какую красоту генерирует нейронная сеть Гугла.
Качество разработки наших и ихних это небо и земля.
Индийские и китайские фрилансеры
Зимой голод будет, нейросеть им нагенерит хлеба?
Зачем? Подключаемся к капельницам с физраствором и ИИ сам решит когда и сколько еды кому выдать
Все мы знаем, что Сбер получше справляется😂
Фильм "Отроки во Вселенной", 1974 год:
"...На борту оказываются человекоподобные инопланетяне, трое из которых переходят на «Зарю», где раскрывают тайну катастрофы своей планеты. 250 лет назад их учёные создали биотехнических роботов-исполнителей для выполнения тяжёлой и рутинной работы. Впоследствии были созданы и роботы-вершители, способные управлять роботами-исполнителями и совершенствовать их. Однажды роботы-вершители решили, что счастью людей («живых») мешают муки творчества, чувство неудовлетворённости, сострадание к другим, доброта и совесть. С помощью специальной процедуры «осчастливливания» роботы-вершители начали лишать жителей планеты этих качеств. Цивилизация оказалась на грани исчезновения, так как люди, лишённые чувства любви, перестали оставлять потомство и начали вымирать. Жители начали войну с роботами, но потерпели поражение. Роботы-вершители использовали так называемый «зов» — особое сочетание звуков и мелодий, лишавшее аборигенов воли и заманивающее их на пункты «осчастливливания». Спаслись только те, кто на момент катастрофы оказался в «космической радиообсерватории», которая и подала сигнал бедствия."
Сюда же можно цикл Основание Азимова подтянуть, там тоже по итогу выходит что людьми управляет робот, который обошел 1 закон робототехники и жизни людей его не волнуют
Осталось заставить ИИ генерировать 24 картинки в секунду и можно кино не снимать.
хм, радужные макароны я себе представил совершенно иначе )))
Да, на русский коряво переводят это слово.
Комментарий недоступен
Зато разрез глаз большинства авторов легко предсказать. Такое ощущение, что самая важная часть импортозависимости штатов от азии - это айти таланты))
AuthorsChitwan Saharia*, William Chan*, Saurabh Saxena†, Lala Li†, Jay Whang†, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho†, David Fleet†, Mohammad Norouzi*
*Equal contribution. †Core contribution.
Скатерть-самобранку давайте уже.
Супер, супер и тысяча раз супер!!!
Скандальный актер фильма Жмурки лежит на кровати. Рядом с ним большая собака.
Стоп, это уже было
«Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке» - прямо картинка из фильма "Мёртвые до востребования" (
Окей гугл. Фото голой Эммы Уотсон, а то фанаты заждались
Между строк - всем кто связан с дизайном, картинками и т.д. - ищите новую работу, у вас осталось максимум 2-3 года. И это не шутка!!! Изображение сгенерировано нейросетью по запросу "Лиса и кот"
Как минимум нейронки станут маст-хэв инструментом вместо слоев и стилей фотошопа.
Нейросеть, нарисуй курс рубля(а, стоп, это уже сделали)
Ну хоть нейросети смогут показать нам хорошую жизнь
Аниме робот пылесос
Нарисуй мне пожалуйста картинку инопланетянина
Ёшкин кот
Pon