«Автоматизированный фотошоп»: OpenAI представила нейросеть, которая редактирует изображения по текстовому описанию

GLIDE также умеет создавать картинки «с нуля».

«Автоматизированный фотошоп»: OpenAI представила нейросеть, которая редактирует изображения по текстовому описанию

Компания OpenAI, известная по разработке моделей искусственного интеллекта GPT-3 и DALL-E, продемонстрировала нейросеть под названием GLIDE. В отличие от аналогов, она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие — с сохранением экспозиции и стиля.

Эффекта удалось достичь благодаря диффузионным моделям. Система искажает исходное изображение, постепенно добавляя в него гауссовский шум, а потом поворачивает процесс вспять, дорисовывая необходимые детали. По похожему принципу работает технология Google для увеличения разрешения.

Запрос «корги в галстуке-бабочке и праздничном колпаке»
Запрос «корги в галстуке-бабочке и праздничном колпаке»

Исследователи обучили сеть на 3,5 млрд параметров и протестировали её как с классификатором CLIP, так и автономно — второй подход оказался эффективнее и показал выборку более высокого качества.

Правки выполняются за несколько секунд с учётом теней и отражений. Кроме того, система распознаёт не только фотографии, но и иллюстрации, поэтому может адаптироваться под художника или стиль конкретной картины.

Запрос «пожар на заднем плане»
Запрос «пожар на заднем плане»

GLIDE позволяет создавать фотореалистичные изображения, объединять концепции правильным образом и осуществлять художественную визуализацию. По оценкам команды, результаты выглядят предпочтительнее образцов DALL-E в 87% случаях.

OpenAI

Обозреватели из ZME Science отметили, что качество итоговых снимков зачастую сопоставимо с кропотливой работой в Photoshop. Система справляется со сложными запросами вроде «повесить картину Ван Гога на стену», но не всегда понимает странные, такие как «автомобиль с треугольными колёсами».

Запрос «сегодня на небе только одно облако»
Запрос «сегодня на небе только одно облако»

Разработчики поделились результатами исследования на научном портале arXiv.org и опубликовали исходный код сокращённой модели на GitHub, чтобы её могли протестировать энтузиасты.

Картинки, сгенерированные GLIDE
Картинки, сгенерированные GLIDE
5454
28 комментариев

Теперь чуваки в твиттере смогут приклеивать пенисы всем подряд в 2 раза быстрее)

26

- Петрович, у тебя есть твиттер?
- Да был в молодости, но я его вылечил...😁

8

Комментарий недоступен

17

Да, первыми на выход идут высокооплачиваемые профессии с минимальной физической деятельностью.
Аналитики, программисты, юристы, получается теперь еще "художники" и дизайнеры.
Их не только будет удобно заменить нейросетью, но и выгодно.

1

Причем тут дизайн?

1

Вот и кнопка «Сделать охуенно» подоспела.

2

Возьму её на работу дизайнером

1