Как заставить свое фото говорить и менять реальность в Grok 2
Пост из моего тг-канала «Находки музыкального маркетинга»: https://t.me/musicmarketingforus
В прошлом посте я рассказывал, как создать крутую сцену с собой в Nano Banana и оживить её в Grok. Но можно сделать примерно тоже и без «бананы», просто пропипав нужный промт сразу в Грок.
Grok 2 умеет делать видео из фото. Я протестировал и вывел формулу, которая заставляет персонажа не только двигаться, но и говорить на русском (с отличным липсинком) и параллельно менять реальность вокруг себя.
Но сначала — баттл нейросетей. Я прогнал один и тот же сценарий через Grok и Sora 2. Вот что получилось (видео в кружочках выше).
Grok vs. Sora 2: результаты теста
1. Grok (из фото):
▫ Плюсы. Хорошо сохранил лицо. Анимация динамичная, эффекты гармоничные. Липсинк (движение губ) отличный. Бесплатно и доступно. ▫ Минусы. Голос не мой (случайный). Длительность всего 6 секунд.
2. Sora 2 (из фото):
▫ Плюсы. Длиннее (15 секунд). ▫ Минусы. Сильно исказила лицо, я стал не похож на себя, чужой голос. Выглядит странно.
3. Sora 2 (мой аватар):
▫ Плюсы. Это реально я (лицо и голос). ▫ Минусы. Получилось много визуального шума. Так как не было референса из фото, придумала похожую (но не очень) локацию из промта.
Вердикт. Для быстрой, креативной и бесплатной анимации Grok выигрывает. Он лучше сохраняет исходник и дает более предсказуемый результат.
Как сделать это в Grok: универсальный промпт
Промпт пишем на английском. Он состоит из трех блоков: база (что делаем), реплика (что говорим) и сцена (что меняется).
Шаблон:
> `Cinematic video from image. The person in the photo looks at the camera and speaks expressively: "[ВАШ ТЕКСТ НА РУССКОМ]". As they speak, [ОПИСАНИЕ ИЗМЕНЕНИЯ СЦЕНЫ]. High quality, dramatic transformation.`
Примеры (как это заполнять):
1. Если хотите превратить комнату в космос
Cinematic video from image. The person in the photo looks at the camera and speaks expressively: "Поехали!". As they speak, the room walls dissolve and turn into deep space with stars and galaxies moving fast. High quality, dramatic transformation.
2. Если хотите стиль киберпанк
Cinematic video from image. The person in the photo looks at the camera and speaks expressively: "Будущее уже здесь". As they speak, the background morphs into a neon-lit cyberpunk city with rain. Lighting on the face changes to pink and blue. High quality, dramatic transformation.
3. Просто оживить фото с речью (без смены фона)
Cinematic video from image. The person in the photo looks at the camera and speaks expressively: "Всем привет, это тест". The background remains the same but with natural movement (wind, light changes). Realistic lighting.
Нюансы:
▫ Голос. Grok генерирует случайный голос. Если нужен свой — накладывайте озвучку поверх в редакторе. Также можно попробовать прописать промт для голоса. ▫ Текст. Пишите коротко. Длинные монологи в 6 секунд не влезут. Это главный минус. ▫ Динамика. Используйте слова morphs, transforms, dissolves, explodes — чтобы задать движение фона. Лучше всего генерировать промты в чате, где есть контекст проекта, для которого делается видео.
Пробуйте и кидайте результаты в комменты!