Google представила технологию, которая повышает разрешение изображений до 16 раз без потери качества Статьи редакции
В основе технологии — диффузионные модели.
В блоге Google AI, посвящённом исследованиям и разработкам в области искусственного интеллекта, обнаружили демонстрацию технологии масштабирования изображений на базе диффузионных моделей.
Специалисты внутренней команды Brain Team представили два связанных алгоритма, которые генерируют фотографии высокой чёткости без потери качества.
Первый из них называется SR3 (апскейлинг посредством повторного уточнения). На вход подаётся картинка с низким разрешением, и нейросеть пытается увеличить её, добавляя шум.
Модель обучается методам искажения изображения, а затем поворачивает весь процесс вспять, постепенно удаляя шум для достижения заявленного результата.
Инженеры обнаружили, что SR3 превосходит существующие генеративные алгоритмы, такие как PULSE и FSRGAN, особенно при работе с портретами и фотографиями природы.
В компании не остановились на достигнутом и разработали ещё одну диффузионную модель под названием CDM. На этот раз нейросеть обучили миллионам изображений высокого разрешения из базы ImageNet.
Алгоритм использует каскадный подход и увеличивает фотографии в два этапа: с разрешения 32×32 -> 64×64 -> 256×256 (в 8 раз), либо с 64×64 -> 256×256 -> 1024×1024 (в 16 раз).
Google опубликовала примеры работы алгоритмов. На некоторых изображениях заметны графические артефакты, но в целом результат действительно удивляет. О коммерческом распространении технологии данных пока нет.
Продукты Topaz по увеличению разрешения фото и видео, с AI.
Они не совсем так работают.
У Topaz нет генеративных моделей, они работают как сверточные модели. В статье же говорится именно про работу генеративных сетей. Результат получается на порядок интереснее и чище. Хотя и со значительной долей "фантазии" со стороны алгоритма.
Поправлю себя немного.
Topaz у себя на сайте пишут, что тоже используют генеративные сети, хотя и с несколько другой архитектурой (соревновательные, вместо диффузионных).
Другое дело, что их результат почему-то выглядит едва ли отличимо от обычных сверточных моделей. Всё тот же звон на границах, то же усреднение смежных пикселей. Загадочно.
Насчет "звона", видимо скорее контрастной буферной зоны, растущей с увеличением разрешения, ге знаю как правильно это называется. "Звон" же это немного другое, там такое множественное "эхо" на контурах появляется, интерполяторы Ланцоша его дают, особенно на высоких степенях. Так вот, контрастные переходы у Топаза получаются лучше чем у обычных интерполяторов типа Сплайна, Ланцоша и пр. А поскольку Топаз параллельно и шумы умеет хорошо давить и резкость восстанавливать, даже в расфокусе и с шевеленкой, это комбо дает действительно дает лучшие результаты даже на "экстремальных" увеличениях типа x16. Но сравнивать мне больше не с чем правда. Другие увеличилки с AI я не пробовал. Даже фотошоповские.
Вот пример работы Gigapixel с сайта Topaz. Хорошо заметно наличие ореола на всех границах.
Артефакт подобного рода не слишком характерен для полноценных генеративных сетей. Что и вызывает скепсис. Впрочем, если где-то в цепи обработки стоит линейный фильтр, например для денойза, то возможно и такое.
Как бы то ни было, результат команды Google в их исполнении выглядит на порядок более впечатляющим, чем всё, что до этого было среди конкурирующих алгоритмов. Изображение выглядит естественным, без явных артефактов обработки. Но с периодической избыточной "фантазией" относительно объекта.
Мыльное мыльце, хоть и с минимумом ореолов.