Google представила технологию, которая повышает разрешение изображений до 16 раз без потери качества

В основе технологии — диффузионные модели.

В блоге Google AI, посвящённом исследованиям и разработкам в области искусственного интеллекта, обнаружили демонстрацию технологии масштабирования изображений на базе диффузионных моделей.

Как работает алгоритм Google

Специалисты внутренней команды Brain Team представили два связанных алгоритма, которые генерируют фотографии высокой чёткости без потери качества.

Первый из них называется SR3 (апскейлинг посредством повторного уточнения). На вход подаётся картинка с низким разрешением, и нейросеть пытается увеличить её, добавляя шум.

Модель обучается методам искажения изображения, а затем поворачивает весь процесс вспять, постепенно удаляя шум для достижения заявленного результата.

Инженеры обнаружили, что SR3 превосходит существующие генеративные алгоритмы, такие как PULSE и FSRGAN, особенно при работе с портретами и фотографиями природы.

В компании не остановились на достигнутом и разработали ещё одну диффузионную модель под названием CDM. На этот раз нейросеть обучили миллионам изображений высокого разрешения из базы ImageNet.

Алгоритм использует каскадный подход и увеличивает фотографии в два этапа: с разрешения 32×32 -> 64×64 -> 256×256 (в 8 раз), либо с 64×64 -> 256×256 -> 1024×1024 (в 16 раз).

Google опубликовала примеры работы алгоритмов. На некоторых изображениях заметны графические артефакты, но в целом результат действительно удивляет. О коммерческом распространении технологии данных пока нет.

Изменение изображений с 32x32 до 256x256 Google
Портреты, сгенерированные из фотографий низкого разрешения Google
Портреты, сгенерированные из фотографий низкого разрешения Google
355355
178 комментариев

Ждала комментарии на эту тему. Ваш превзошёл мои лучшие ожидания в 16 раз.

211

Учитывая, что нейросеть "дорисовывает" из своего, если можно так сказать, банка "воображения", основанного на предыдущем опыте, там при каждом "увеличении" будут разные номера автомобиля и разные картинки в отражении :)

45

Комментарий недоступен

20

Теперь уже не посмеёшься!

Вот так технологии убивают мемы 🤣

16

От этого комментария на моих глазах появился фильтр Ностальгическая слеза, и я увидел в логотипе VC лайк с мизинцем с логотипа «Цукерберг позвонит». Применил этот фильтр ещё раз — лицо Андрея Загоруйко. После третьего наложения я уже скроллил эту страницу, видя ленту ЖЖ unab0mber 😭

9

Когда-то это было круто, потом мы выросли и поняли, что это голивудский пистеш…
Теперь я не знаю что думать 🤣🤣🤣
В Голливуде ванги сидят по ходу 🤣🤙

4