Генеративный ИИ: так ли с ним всё просто?

В последнее время мы все с интересом наблюдали за хайпом вокруг генеративного искусственного интеллекта. Интернет наводнили созданные с помощью DALLE 2, Midjourney, Stable Diffusion картинки и образы, тесты и квизы, а каждый любопытный поигрался с ChatGPT. Соль в том, что его возможности неожиданно стали доступны каждому. Мои коллеги начали активно использовать ChatGPT для получения идей для статей, постов, бизнес-имейлов и переводов текста на другие языки. Кстати, мы проверяли: ChatGPT отлично работает не только для английского, но и для русского и арабского языков. Вот это уровень! Конечно, технологии эти не новы: первые чат боты были представлены на рынке в 1960х, но то, что мы только что наблюдали, произвело на всех взрывной эффект.

То, что уже стало частью нашей повседневной реальности — лишь начало. Очевидно, что в будущем возможности искусственного интеллекта будут использоваться гораздо агрессивнее. Естественно, такая перспектива вызывает множество не беспочвенных опасений. Предлагаю, однако, сфокусироваться на светлой стороне и тех преимуществах, которые ИИ вносит в нашу жизнь. А также поговорить о том, что, будучи необыкновенным инструментом, генеративный ИИ всё же требует определённых навыков, знаний, педантичности и вдумчивости от “художников”, которые творят с его помощью.

Мне посчастливилось работать с командой талантливых экспертов в сфере искусственного интеллекта, претворяющих в жизнь самые смелые идеи наших клиентов. Однако ни в одной сфере не обходится без «но”. В данном случае в роли “но” выступают сложности, которые нашей команде Data Scientists приходится преодолевать, чтобы показать »вау” результаты и добиться поставленных целей. Давайте заглянем за кулисы и посмотрим на примеры таких сложностей и методы борьбы с ними.

Мы расскажем об использовании возможностей генеративного ИИ в сфере видео-распознавания, которая является для нас основным фокусом в последние восемь лет. Давайте рассмотрим один из недавних примеров.

Задача от клиента: одеть обнаженного персонажа фильма

Наверняка вы слышали историю о том, что Флоренс Пью в одной из сцен в “Оппенгеймере” одели в черное платье (в версии фильма для арабского рынка). Так вот, один из наших клиентов из MENA-региона поставил нам такую же задачку. Клиент спросил, а можем ли мы не только автоматически сканировать иностранные фильмы и сериалы на предмет обнаженных и полуобнаженных персонажей, но и… одевать их. Стандартная задача для специалиста по искусственному интеллекту, скажете вы. Но нюанс в том, что люди-то на видео постоянно двигаются.

Вы живо можете себе представить, как технология отрисует платье, идеально подходящее героине по цвету и размеру. А еще более живо то, что произойдет, если эта самая наряженная в платье героиня встанет со стула, начнёт танцевать, ну или просто перемещаться. Отличная может быть картинка с танцующей обнаженной девушкой и платьем, замершем на месте или исполняющим свой собственный танец! Давайте послушаем, как решаются такие задачи.

Наша команда Data Scientists столкнулась сразу с несколькими сложностями в работе над этой задачей, в основе которой лежат технологии Video Inpainting. Для начала мы должны были разработать надежную систему распознавания видео, которая бы отслеживала наличие полуобнаженных и обнаженных персонажей. Система должна была демонстрировать высокую точность даже в условиях плохого качества видео и сцен в полумраке (не частый случай, но тем не менее).

В первую очередь мы разбили фильм на сцены и автоматически сравнивали видео- и аудиотреки на таймлайне. Если мы отмечали большую разницу между кадрами или аудио и картинкой, для нас это был сигнал о смене сцены. Следующим шагом было использование целого ансамбля моделей по распознаванию действий и видео-ряда, состоящего из нескольких обученных нейронных сетей для распознавания каждого класса объектов.

Ансамбль состоял из трех нейронных сетей:

- Система модерации контента Amazon Rekognition;
- Нейронная сеть для распознавания действий различного характера (например, сексуального) с использованием кастомизированного X-CLIP;
- Нейронная сеть по распознаванию образов для поиска некорректных кадров, использующая визуальный трансформер ViT-G/14 OpenCLIP и детектор NSFW-картинок.

Такой ансамбль из трех моделей дает большие преимущества по сравнению с использованием одной модели. У каждой из трех моделей есть свои недостатки, в то время как их одновременное использование позволяет делать кросс-проверки и гарантирует отсутствие ошибок во всех случаях, включая действия, объекты и нецензурную лексику.

Далее мы использовали дообученную диффузионную нейронную сеть, основанную на текстовом энкодере CLIP ViT-L/14 и декодере изображений MOVQ, что позволило одевать персонажей эффективно и, самое главное, реалистично. Наша система должна была отрабатывать без ошибок, корректно “одевать” персонажей без побочных эффектов типа задвоения рук или глаз (частая проблема, см. “Рисунок 1”). Это было непросто, поскольку естественный язык (он подается на вход диффузионной модели, исходя из ее архитектуры) может быть неточным, а качество сгенерированной картинки сложно четко оценить.

<b>Рисунок 1 - Пример плохого результата генерации изображения</b>
Рисунок 1 - Пример плохого результата генерации изображения

Для оценки работы системы мы использовали детекционные модели. Если модель распознавала сгенерированное изображение с высоким процентом уверенности, это означало, что созданный контент был верным, в то время как ошибки распознавания сигнализировали о проблемах.

И наконец, поскольку объекты в видео всегда двигаются, наша система должна была отслеживать персонажей в реальном времени и в реальном же времени корректировать отрисованную одежду. Для решения этой задачи мы включили в модель все соседние кадры с текстовым описанием, чтобы диффузионная модель отлавливала все моменты в сценах.

Проект сложный, но выполнимый. И в настоящее время наша команда работает над созданием эффективной системы для клиента. Система поможет клиенту значительно ускорить процесс цензурирования и гарантирует качество контента, предлагаемого их аудитории.

На скриншотах ниже можно увидеть несколько примеров работы системы (Pисунок 2, Pисунок 3):

<b>Рисунок 2 - Оригинал изображения</b>
Рисунок 2 - Оригинал изображения
<b>Рисунок 3 - Пример успешной генерации изображения</b>
Рисунок 3 - Пример успешной генерации изображения

Аркадий, Data Scientist в Inventale

Описанное выше - лишь пример возможностей, которые предоставляет нам генеративный искусственный интеллект. С его помощью можно создавать иллюстрации к книгам, описания продуктов, эффективных виртуальных помощников, новые лекарства, сочинять музыкальные произведения и многое другое. Потенциал генеративного ИИ безграничен, и с его помощью можно добиться фантастических результатов!

Однако работа с генеративным искусственным интеллектом требует определенных навыков, опыта и пытливого ума для преодоления множества препятствий. И на данный момент известен целый ряд сложностей, с которыми приходится сталкиваться. А именно:

1. Если говорить о Video Inpainting, стоит отметить, что технология очень сложна с вычислительной точки зрения, т.е. она либо очень дорогая, либо требует больших временных затрат;

2. ИИ всегда предполагает участие человека, отслеживающего работу системы, осуществляющего анализ и исправление ошибок. И не забывайте, что люди сами совершают ошибки;

3. Существует феномен так называемой “необъективности ИИ”, когда результат, выданный системой, может быть предвзятым из-за ошибочных суждений;

4. В то время как в обычном коде разработчик всегда сможет найти и исправить ошибки, в случае с нейронными сетями не всегда очевидно, почему они сгенерировали тот или иной результат (так называемая “проблема объяснимого ИИ”). Поиск ответов требует времени. Приходится изучать схожие данные и проходить процесс генерации для воспроизведения результата, чтобы понять, почему и как так получилось.

Как вы видите, будучи очень мощным инструментом, в то же самое время генеративный ИИ не так прост в применении, как это могло казаться. Команда Inventale продолжает экспериментировать и изучать его возможности в наших проектах. Надеюсь, в скором времени мы сможем поделиться новыми историями!

1313
Начать дискуссию