Google представила технологию, которая повышает разрешение изображений до 16 раз без потери качества Статьи редакции

В основе технологии — диффузионные модели.

В блоге Google AI, посвящённом исследованиям и разработкам в области искусственного интеллекта, обнаружили демонстрацию технологии масштабирования изображений на базе диффузионных моделей.

Как работает алгоритм Google

Специалисты внутренней команды Brain Team представили два связанных алгоритма, которые генерируют фотографии высокой чёткости без потери качества.

Первый из них называется SR3 (апскейлинг посредством повторного уточнения). На вход подаётся картинка с низким разрешением, и нейросеть пытается увеличить её, добавляя шум.

Модель обучается методам искажения изображения, а затем поворачивает весь процесс вспять, постепенно удаляя шум для достижения заявленного результата.

Инженеры обнаружили, что SR3 превосходит существующие генеративные алгоритмы, такие как PULSE и FSRGAN, особенно при работе с портретами и фотографиями природы.

В компании не остановились на достигнутом и разработали ещё одну диффузионную модель под названием CDM. На этот раз нейросеть обучили миллионам изображений высокого разрешения из базы ImageNet.

Алгоритм использует каскадный подход и увеличивает фотографии в два этапа: с разрешения 32×32 -> 64×64 -> 256×256 (в 8 раз), либо с 64×64 -> 256×256 -> 1024×1024 (в 16 раз).

Google опубликовала примеры работы алгоритмов. На некоторых изображениях заметны графические артефакты, но в целом результат действительно удивляет. О коммерческом распространении технологии данных пока нет.

Изменение изображений с 32x32 до 256x256 Google
Портреты, сгенерированные из фотографий низкого разрешения Google
0
178 комментариев
Написать комментарий...
Rodeus

Продукты Topaz по увеличению разрешения фото и видео, с AI.

Ответить
Развернуть ветку
Sergey Abramov

Они не совсем так работают.

У Topaz нет генеративных моделей, они работают как сверточные модели. В статье же говорится именно про работу генеративных сетей. Результат получается на порядок интереснее и чище. Хотя и со значительной долей "фантазии" со стороны алгоритма.

Ответить
Развернуть ветку
Sergey Abramov

Поправлю себя немного.

Topaz у себя на сайте пишут, что тоже используют генеративные сети, хотя и с несколько другой архитектурой (соревновательные, вместо диффузионных).

Другое дело, что их результат почему-то выглядит едва ли отличимо от обычных сверточных моделей. Всё тот же звон на границах, то же усреднение смежных пикселей. Загадочно.

Ответить
Развернуть ветку
Rodeus

Насчет "звона", видимо скорее контрастной буферной зоны, растущей с увеличением разрешения, ге знаю как правильно это называется. "Звон" же это немного другое, там такое множественное "эхо" на контурах появляется, интерполяторы Ланцоша его дают, особенно на высоких степенях. Так вот, контрастные переходы у Топаза получаются лучше чем у обычных интерполяторов типа Сплайна, Ланцоша и пр. А поскольку Топаз параллельно и шумы умеет хорошо давить и резкость восстанавливать, даже в расфокусе и с шевеленкой, это комбо дает действительно дает лучшие результаты даже на "экстремальных" увеличениях типа x16. Но сравнивать мне больше не с чем правда. Другие увеличилки с AI я не пробовал. Даже фотошоповские.

Ответить
Развернуть ветку
Sergey Abramov

Вот пример работы Gigapixel с сайта Topaz. Хорошо заметно наличие ореола на всех границах. 

Артефакт подобного рода не слишком характерен для полноценных генеративных сетей. Что и вызывает скепсис. Впрочем, если где-то в цепи обработки стоит линейный фильтр, например для денойза, то возможно и такое.

Как бы то ни было, результат команды Google в их исполнении выглядит на порядок более впечатляющим, чем всё, что до этого было среди конкурирующих алгоритмов. Изображение выглядит естественным, без явных артефактов обработки. Но с периодической избыточной "фантазией" относительно объекта.

Ответить
Развернуть ветку
Rodeus

Мыльное мыльце, хоть и с минимумом ореолов.

Ответить
Развернуть ветку
175 комментариев
Раскрывать всегда