Типа Prisma, но в геймдеве: как мы сделали AI-аватары

В решениях uKit Group компьютерное зрение и машинное обучение используются не первый год. Например, проект Webscore делает оценку визуальной привлекательности сайтов. Создавая браузерную игру Web Tycoon, мы подумали, что было бы круто, если геймеры смогут создавать похожие на себя аватары.

Чтобы сделать симулятор интернет-бизнеса интересным, нужно проработать игру в деталях и игровые портреты пользователей — не исключение. Перед нами была непростая задача — научить искусственный интеллект анализировать фотографии пользователей, чтобы создавать похожие на них картинки.

Что в этом сложного

Готовым решением не обошлись — пришлось пройти долгий путь поиска генеративных моделей, в итоге многое сделав с нуля. Собирать аватары решили из нарисованных элементов — так сохраняется флэт дизайн, соответствующий стилю игры, и получается портретное изображение вне зависимости от картинки, которую загрузили.

Стилистика игры
Стилистика игры

Чтобы понять, что для нашей задачи на самом деле нужно, перебрали несколько моделей. В качестве исходных взяли готовые Style Transfer решения — это техника визуальной перекомпоновки в стиле каких-либо изображений. Правда, Style transfer сам по себе нам не подошёл.

Мы пробовали всё подряд до тех пор, пока что-то не заработало. Первой удачной моделью стал CycleGAN, который и взяли за основу. Потом прикрепили Perceptual Loss, чтобы два визуально одинаковых изображения считывались как одинаковые. Но это было не самым сложным.

У всех моделей одинаковые проблемы — время обучения, чувствительность к инициализации, mode collapse. Поэтому заставить генеративную модель обучаться — вот настоящий челлендж.

Как решали проблемы

Возникли и инженерные сложности — обеспечение быстрой параллельной подгрузки данных с аугментаций, так как стандартного набора в keras/tf/pytorch не хватало. Чтобы модель обучалась, играли с функциями потерь и архитектурой генератора внутри CycleGAN’а, добавили identity loss и color loss и пришли к 12 блочному резнету.

В нашем случае разметка данных — субъективная вещь. Если дать 10 людям собрать для одной фотографии по аватарке, получится 10 разных аватарок. К тому же, если дизайнеры вдруг добавят, скажем, новый вид очков, то всё сломается и нужно будет размечать заново. Системы без разметки лишены этих недостатков и в теории гибкие.

Пример сгенерированного аватара
Пример сгенерированного аватара

В теории — потому что бесплатный сыр только в мышеловке. Понятный, но монотонный труд асессоров заменялся трудом программистов, чтобы всё работало, скажем так, без данных.

В чём прикол

1. Все, кто заявляет, что что-то там генерируют, по факту рисуют составные блоки руками, а потом из них собирают псевдорандомом. Это создаёт ощущение, что генеративные модели используются, но по факту нет.

2. Если кажется, что задача сложная — вероятно, она очень сложная. Готовые решения не подходили, GAN внезапно генерировал что-то странное, random seed забывали фиксировать. Поэтому, если решите тоже сделать что-нибудь типа этого, имейте в виду — это долго.

3. GAN могут использоваться как инструмент решения таких задач, как генерации изображений по текстам. Например, пишете «котик» — генерится котик. Компьютер может генерировать бесконечное количество представлений и наша задача научиться использовать это.

Что получилось

Первое — уменьшить количество ошибок. Для обучения модели, работали с функциями потерь — это метод позволяет оценить, насколько хорошо алгоритм моделирует данные. Если прогнозы слишком сильно отклоняются от результатов, функция потерь учится уменьшать количество ошибок.

Второе — прийти к 12 блочному резнету, заменив архитектуру генератора внутри CycleGAN’a, потому что исходный был коротковат.

Третье — написать более высокоуровневые обертки над моделями, которые позволяют переиспользовать код в случае с использования его в нескольких моделях сразу.

Четвертое — аналогично (по тем же причинам что и в третьем пункте) обобщить код для data-генераторов.

Пятое — сделать собственное решение для подгрузки с аугментациями на CPU. Для этого была придумана и написана специальная фишка, с помощью которой технология может быть применена в других проектах, не связанных с аватарами. Подробнее о ней расскажем в другой раз.

Пример работы GAN
Пример работы GAN

За время работы над аватарами мы перепробовали много инструментов и методов, и теперь можем уверенно сказать, что за GANами будущее. Они могут быть применены везде, где может быть полезна генерация изображений и их частей. Вы можете рисовать ч/б скетчи, а генеративная модель будет их разукрашивать. Можете рисовать полигоны, и они будут дорисовываться. Можете генерировать внешний вид персонажа, и это только малая часть возможностей. Они ограничены только воображением применяющего эту сеть человека.

1111
2 комментария

Мне кажется, Маск не очень похож..

1
Ответить

Вам не кажется, это так

1
Ответить