Простейший ИИ-Аватар | Как создать ИИ-модель и использовать ее в рекламе и маркетинге?
Данная статья будет полезна для новичков, кто еще только приобщается к миру ИИ и изучает все возможности, которые дают нам нейросети. Сегодня мы поговорим о том, как создать своего ИИ персонажа, внешность которого вы сможете использовать при создании ваших фото и видео.
ИИ-Аватар - это сгенерированный нейросетью персонаж, с внешностью которого вы генерируете различный медиа-контент
ИИ-аватары (или ИИ-модели) можно разделить на два вида:
- Основанные на реально существующих людях
- Полностью созданные через нейросеть
Создание этих этих двух типов ИИ-моделей мало чем отличаются друг от друга, но есть нюансы:
- Для аватара, основанного на реально существующих людях, (необходимо) желательно, согласие этого человека:)
- Также, для «реального» аватара необходимо скопировать его голос. В то время как для «нейросетевого» - создать свой голос с нуля. Но, это уже по желанию.
- Начинать создание «нейросетевого» ИИ-автара желательно с лица
Давайте попробуем создать простейшего ИИ аватара, который будет предлагать подписаться на наш канал Нейрон. Будем придерживаться следующего плана:
Создаем лицо нашего ИИ-аватара
Для создания лица воспользуемся какой-либо нейросетью, которая создает изображения. Я хочу создать ИИ-персонажа - бабушку в платке.
Для начала создадим лицо виртуального персонажа. Для создания лица я буду использовать Midjourney в нашем боте Нейрон
Напишем следующий промпт и переведем его на английский для лучшего понимания:
Портрет пожилой женщины крупным планом с глубокими морщинами и мудрыми глазами, одетой в традиционную одежду. Выражение ее лица теплое и располагающее, отражающее истории, рассказанные за всю жизнь. Фон слегка размыт, подчеркивая черты ее лица. Фотореалистичный снимок, сделанный на Nikon D750, портретный объектив 85 мм, эффектное освещение.
A close-up portrait of an elderly woman with deep wrinkles and wise eyes, wearing traditional clothing. Her expression is warm and inviting, reflecting a lifetime of stories. The background is softly blurred, emphasizing her features. Photorealistic, shot on Nikon D750, 85mm portrait lens, dramatic lighting.
Midjourney выдал 4 варианта изображения, из которых я выбрал одно:
Создаем фотографии со сценами ИИ-модели
Теперь давайте сделаем нашего персонажа в двух кадрах:
1. ИИ-модель стоит в деревенском доме и смотрит в окно
2. Сидит за старым деревенским столом. По пояс.
Задумка следующая: ИИ-персонаж отходит от окна и садится за стол к компьютеру. И затем начинает говорить: "Я - плод твоего воображения. Этот плод просит вас подписаться на канал Нейрон. Там вы можете получить доступ к более, чем 16 нейросетям от 29 рублей!"
Для реализации этих двух сцен воспользуемся Nano Banana (про возможности Nano Banana у нас уже выпущена отдельная статья), так как именно эта нейросеть лучше всего сохраняет черты лица. Ну, или, Seedream 4.0. Также в Нейрон бот
Я начал с кадра, где ИИ-модель сидит за столом и вот какой запрос написал:
Женщина на фото сидит за старым деревянным столом. Атмосфера - деревенский дом. На столе стоит глиняный кувшин и Macbook. Фотореалистичный снимок, снятый на объектив 65 мм, эффектное освещение.
Перевод на английский:
The woman in the photo is sitting at an old wooden table. The atmosphere is a rustic house. There is an earthenware jug and a Macbook on the table. Photorealistic shot taken with a 65mm lens, spectacular lighting.
Вот как я делал запрос в нейросеть. Со сценой ИИ модели у окна - аналогично:
Вот, что у меня получилось:
Создаем видео с ИИ-персонажем
Далее нам нужно эти сцены оживить. Для оживления данных сцен с нашим ИИ-аватаром я буду использовать VEO 3.1 Fast. Эта нейросеть стоит не очень дорого и идеально подойдет под наши цели. Стоимость создания одного видео - 30 токенов (около 60-70 рублей).
Для оживления буду использовать следующий промпт:
Порядок действий, которые должны быть на видео:
1. Женщина стоит у окна и слегка покашливает
2. Подходит к стулу и слегка отодвигает его
3. Садится за стол На фоне играет драматичная музыка
Перевод на английский:
The order of actions that should be on the video:
1. A woman stands at the window and coughs slightly.
2. Approaches the chair and pushes it back slightly
3. Sits down at a table With dramatic music playing in the background.
Вот, как я отправлял запрос на создание видео с ИИ-персонажем через VEO 3.1 Fast:
А вот, что вышло:
А теперь объясню, зачем все эти танцы с двумя фото, ведь кто-то из читателей может задаться вопросом: а нельзя ли было сразу сгенерировать подобное видео с ИИ-аватаром через один промпт?
Да, читатель будет прав - можно было сделать сразу. Но мы хотим сделать нашего виртуального персонажа:
- Используемым много раз - поэтому нам нужны качественные фото и сцены, а не стоп-кадры из видео
- Каждый раз сохранять внешность - поэтому мы сначала сгенерировали качественное фото лица
- Как можно дешевле - поэтому мы, на более дешевом Nano Banana, сделали два кадра, конечный и начальный. И далее загрузили их в VEO 3.1, чтобы нейросеть лучше поняла, что ей надо сделать и идеально подогнала под конечный кадр. И она сделала нам очень хорошее видео с первого раза
Создаем голос ИИ-модели
Далее нам нужно сделать речь нашего виртуального персонажа. Для этого у нас есть два варианта:
Первый - самый простой - продлить данное видео также через VEO 3.1, написав дополнительный промпт с прямой речью. У этого варианта есть огромный минус - VEO 3.1 может не подобрать голос под стать бабушке. А если захотим сделать новое видео в других декорациях, то голос вообще будет не тот. VEO 3.1 вряд-ли попадет в нужный тембр голоса снова.
Второй - сгенерировать речь каким-то заранее созданным голосом, а затем синхронизировать движение губ. Наиболее предпочтительный вариант: мы сможем запомнить, какой голос использовали для нашего ИИ-персонажа и делать все последующие видео с одним и тем же стилем речи.
Я, очевидно, выбрал второй вариант. Речь для ИИ-модели я создал через Eleven Labs. Запомнил все параметры голоса и теперь я смогу всегда использовать один и тот же. Вот, что у меня вышло:
Вы можете создавать голос где угодно. Главное - то, что будет дальше.
Синхронизируем губы
Теперь наша цель - сделать так, чтобы наша ИИ-модель заговорила. Заставлять нашу бабулю разговаривать будем через две нейросети:
- Kling-v1-avatar
- Infinitalk
На момент написания статьи их нет в нашем боте, но они скоро там появятся. Возможно, мы их уже добавили.
Пример отправки запроса прикреплять не буду, так как запросы отправлял напрямую через API (чтобы без регистрации и смс, так сказать)
Отправлю лишь результаты синхронизации губ нашего ИИ-аватара. Вот, как получилось через Kling-v1-avatar:
А вот как через Infinitalk:
Мне больше понравилась версия через Kling. Беру ее - и иду склеивать в простейшем видеоредакторе наши два видео (начальная сцена и разговор)
Финальный результат создания ИИ-аватара
Конечно, получилось не совсем то, что я хотел. Но, для демонстрации - более, чем достаточно. Видно место склейки, что мне не очень понравилось. В данном случае надо было выбрать качество повыше или попробовать другую нейросеть. Со звуками тоже нужно поиграть. Но принцип, думаю, понятен.
В качестве бонуса - решил озвучить видео также через функцию продления в VEO 3.1:
Тут, думаю, сами понимаете - почему не получится сделать хорошую озвучку:)
Другие видео с этим ИИ аватаром
Так как мы достаточно детально создали портрет нашей ИИ-модели, мы можем создавать различные стартовые и конечные кадры с ней. Вот, для примера, еще одно видео с нашим виртуальным персонажем
90% задач по созданию ИИ-аватара закроет Нейрон Бот: успейте попробовать 16 нейросетей всего от 29 рублей.
А у меня на этом все. Встретимся в комментах нашего канала: Нейрон