Google представила технологию, которая повышает разрешение изображений до 16 раз без потери качества Статьи редакции
В основе технологии — диффузионные модели.
В блоге Google AI, посвящённом исследованиям и разработкам в области искусственного интеллекта, обнаружили демонстрацию технологии масштабирования изображений на базе диффузионных моделей.
Специалисты внутренней команды Brain Team представили два связанных алгоритма, которые генерируют фотографии высокой чёткости без потери качества.
Первый из них называется SR3 (апскейлинг посредством повторного уточнения). На вход подаётся картинка с низким разрешением, и нейросеть пытается увеличить её, добавляя шум.
Модель обучается методам искажения изображения, а затем поворачивает весь процесс вспять, постепенно удаляя шум для достижения заявленного результата.
Инженеры обнаружили, что SR3 превосходит существующие генеративные алгоритмы, такие как PULSE и FSRGAN, особенно при работе с портретами и фотографиями природы.
В компании не остановились на достигнутом и разработали ещё одну диффузионную модель под названием CDM. На этот раз нейросеть обучили миллионам изображений высокого разрешения из базы ImageNet.
Алгоритм использует каскадный подход и увеличивает фотографии в два этапа: с разрешения 32×32 -> 64×64 -> 256×256 (в 8 раз), либо с 64×64 -> 256×256 -> 1024×1024 (в 16 раз).
Google опубликовала примеры работы алгоритмов. На некоторых изображениях заметны графические артефакты, но в целом результат действительно удивляет. О коммерческом распространении технологии данных пока нет.
А в чём новинка? На https://letsenhance.io/ уже давно такое делать же можно.
Я вам больше скажу, я эту штуку в продукте активно использовал, а у нас было ни много ни мало пол-ярда изображений, а на печать надо было выводить с высоким dpi, а пользователи грузили чопопало. Все классно, но это сторонний сервис, который к себе на машинку не развернешь для скорости, а летсэнчанс иногда мог магию делать по минуте и падал по таймауту. Вот отсюда гугловое решение с возможностью купить лицензию и пользоваться вышло бы и дешевле и производительнее. Так что вот вам и коммерческое использование сразу