Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Поставили американского рэпера на крышу высотки и «отрисовали» с нуля экспрессивного репортёра, которому пришлось «забить металлом весь рот».

Источник здесь и далее, если не указано иное: Mamontov Production

В мае 2025 года рэпер Snoop Dogg завёл себе канал в Telegram. В июле выложил видеоклип на песню про Telegram-подарки, приуроченный к выходу лимитированной коллекции, в которую вошли пёс, винтажный автомобиль и статуэтка с фирменным жестом. По словам основателя мессенджера Павла Дурова, их распродали за полчаса.

В производстве видеоклипа участвовала студия Mamontov Production с основателями из Омска — арт-директором Никитой Мамонтовым и серийным предпринимателем Антоном Караваевым. Расспросили их о кейсе.

Содержание

Три дня на всё: как попали в проект и какое ТЗ получили

Поучаствовать в производстве клипа команду Mamontov Production позвал сотрудник Telegram — ему понравились публичные кейсы студии. Сроки были сжатые: сделать и согласовать весь ИИ-контент предстояло за три календарных дня. Нужно было сгенерировать:

  • Эпизоды со Snoop Dogg, в которых рэпер не читает и не курит.
  • Сцены с говорящим репортёром, который держит в руках смартфон.

Строгого технического задания не было. Из требований — озвучить реплики репортёра из сценария, «поставить» ему несколько золотых зубов и показать на его смартфоне нужные экраны из интерфейса Telegram. В остальном заказчики полагались на то, что команда вдохновится образом самого Снупа, учтёт дизайн подарков и общее настроение трека.

Клип про Telegram-подарки, размещённый в официальном аккаунте Snoop Dogg с аудиторией 10,9 млн подписчиков. Источник: YouTube

Над генерацией и постобработкой сцен работало шесть человек. Ядро выглядело так:

  • Сценарист. Придумал, как будут строиться сцены.
  • Арт-директор. Отвечал за визуальную концепцию и качество исполнения.
  • Супервайзер. Выбрал базовый стек нейросетей и назначил исполнителей.
  • Дизайнер. Дообучил модель, сгенерировал и проанимировал статику и исправил артефакты.
  • CG-дженералист. Создал и внедрил 3D-элементы.

Если бы сцены не генерировали, а снимали, потребовалось бы «в 20 раз больше специалистов», включая режиссёров, операторов и их ассистентов, гафферов, декораторов и гримёров.

Бюджет не раскрывают, но без нейронок он составил бы «в 100 раз больше», потому что только время рэпера обошлось бы как съёмка короткометражки. Один его час, по разным оценкам, может стоить несколько сотен тысяч долларов.

Нейросети дают возможность показать за 100 тысяч рублей то, что в CGI обошлось бы в миллионы. Сделать мультик уровня Pixar «по старинке» — это десятки и сотни миллионов долларов. Отрисовать его с помощью ИИ можно в несколько раз дешевле.

То же касается фантазийных сцен, где условный бульонный кубик «взрывается» овощами и специями. «Гудинщик» возьмёт за задачу несколько тысяч долларов и потратит недели две. С нейросетями и доработками уйдёт два дня на сцену и в десять раз меньше денег.

Никита Мамонтов, сооснователь Mamontov Production

80% работы — статика: как генерировали рэпера

Некоторые сцены Snoop Dogg отснял в офлайн-студии — на зелёном фоне, вместо которого потом вставили нужные задники. Окантовка «зелёнки» заметна в итоговом клипе, если приглядеться.

Mamontov Production сгенерировала остальные сцены с рэпером — где он стоит и сидит на фоне города, хвастается машинами и проезжается на одной из них.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Первый этап: подготовка статики

Качество первого кадра во многом определяет дальнейший «успех», так что 70-80% работы — это практически всегда работа со статикой.

Большинство популярных моделей не поддерживают генерацию известных личностей из-за внутренних ограничений на создание дипфейков. Чтобы «отрисовать» рэпера, пришлось дообучить портретную модель Flux LoRA Portrait — создать для неё кастомные настройки локально.

Сделать такое через онлайн-сервисы больше нельзя. Как-то раз мы хотели сгенерировать президента США Дональда Трампа через Fal AI, загрузив большой датасет с фотографиями, но в итоге получили совершенно другого мужчину.

Повторная попытка не увенчалась успехом, поэтому в этот раз сразу разворачивали всё на «локалке», чтобы не тратить время.

Никита Мамонтов, сооснователь Mamontov Production

Для дообучения загрузили сотни фотографий рэпера из интернета — поближе, подальше, в разных позах и с разнообразными эмоциями.

Чем качественнее и разноплановее изображения, тем точнее будет отрисовывать персонажа Flux.

Flux выбрали, потому что модель хорошо генерирует реалистичных людей.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Второй этап: доработка статики

Просто генерация статики — это 40% дела. Ещё столько же — ручная доработка. Нужно было повысить разрешение и качество кадров, поправить «поплывшие» лица, убрать лишние пальцы у рэпера и шестые колёса у машин. Заодно убедиться, что дреды растут из головы, а не из глаз (и что они вообще есть).

При ручном редактировании в ход чаще всего идут «традиционные» инструменты: Photoshop, Nuke, After Effects, Blender 3D, Cinema 4D.

На нескольких кадрах заказчику понравилась общая картинка, но показалось резиновым лицо Снупа. Такие, несмотря на доработки, отсеивались целиком.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Третий этап: анимация статики

Анимировали статичные кадры с помощью Kling AI: получали пятисекундные видео, делали постобработку и отправляли на согласование.

В анимациях тоже встречаются артефакты. Их убирают моушн-дизайнеры и композеры. Но первоочерёдная задача — снизить количество таких недочётов за счёт максимально педантичной проработки статики.

Анимацию исправлять гораздо дороже и дольше. Чтобы перекрасить футболку в видео, только на создание маски уйдёт минимум два часа. При работе со статикой это вопрос одной минуты.

Источник: YouTube

Либо персонаж, либо эмоции: как сделали репортёра со смартфоном

Репортёр по сюжету экспрессивный — он грустит, злится и ругается прямо в эфире, качает головой, жестикулирует и трясет телефоном перед «камерой». Генерировать его оказалось в несколько раз сложнее, чем рэпера, потому что здесь был важен максимальный реализм.

Единство образа и липсинк

Перед командой стояло три основные задачи:

  • Сохранить цельность образа во всех сценах.
  • Правильно передать эмоции.
  • Синхронизировать движения губ со звучащей речью (липсинк).

Сначала Mamontov Production пыталась пойти отработанным путём: сгенерировать статичные стартовые кадры, проанимировать их и отдельно добавить липсинк. Последнюю задачу решают сервисы вроде LipDub AI — с ними можно отредактировать движение губ в готовых видеосценах.

Итоговый результат не понравился ни самим креативщикам, ни заказчику. С «попаданием» в звуки проблем не было, а вот эмоции казались роботизированными.

Одновременно и с мимикой, и с липсинком «из коробки» справлялась Veo 3 от Google, но тогда модель не умела «сохранять» единообразие персонажей от сцены к сцене. Каждый раз получался новый репортёр: в белой рубашке, с похожим галстуком и того же телосложения, но с совершенно другим лицом. («Консистентность» персонажей по иронии добавили в Veo 3 через несколько дней после сдачи проекта.)

В ходе мозгового штурма команда вспомнила про симулятор жизни The Sims, где персонажу можно вручную настроить практически все черты, и решила использовать аналогичный подход.

  • Сначала сгенерировали статичное изображение лица, которое согласовали с заказчиком.
  • Затем попросили ChatGPT сформировать базовую структуру промпта, на основе которого генерировали анимации в Veo 3. Итоговый вариант доработали вручную.

В итоговом промпте прописали всё: от структуры репортёрских волос, их взъерошенности и цвета до формы головы и скул, вида зубов, количества морщин и их расположения.

Инструкция заняла целую страницу А4 мелким шрифтом. Ещё повезло, что Veo 3 принимает такие длинные промпты.

Никита Мамонтов, сооснователь Mamontov Production

Заказчик попросил, чтобы у репортёра было несколько золотых зубов, но нейросети ещё не научились «ставить» их выборочно. Пришлось смириться и «забить металлом весь рот». Ровный ряд белоснежных зубов смотрелся бы странно: по сюжету он не самый обеспеченный афроамериканец и выпрашивает подарки у Снупа, так что денег на виниры у него явно нет.

В итоговом клипе репортёр всё же отличается от отрывка к отрывку, но в глаза это не бросается. Чтобы заметить отличия, нужно ставить ролик на паузу и перематывать сцены.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Озвучка «запрещёнки»

Veo 3 «запрещает» не только генерировать дипфейки, но и упоминать известных личностей в аудио, которое создаёт для видео. Из-за этого репортёр «не мог» произнести псевдоним рэпера.

Отходить от сценария не вариант: его уже утвердили и Snoop Dogg, и Telegram. Так что команда исказила написание имени и «скормила» модели SnupDok вместо Snoop Dogg. Губы репортёра двигались верно, да и звучало в целом похоже, но для русскоговорящих пользователей. Англоязычная аудитория наверняка заметила бы расхождения.

Сгенерировать его речь попытались с помощью ещё одной модели, но качественной разницы не услышали и потому пошли на компромисс. В финальной версии клипа репортёр говорит только «Снуп» и «Снупи». Выкрутиться иначе не позволили сроки.

С нейронками постоянно приходится идти на уловки. По сценарию репортёр матерится — произносит слово fuck. Veo 3 отказывается генерировать брань, поэтому мы взяли голос персонажа из Veo, создали его копию в другом нейросервисе, который разрешает материться, сгенерировали там фрагмент речи и вставили его в финальный монтаж.

Антон Караваев, сооснователь Mamontov Production

Интеграция интерфейса Telegram

В видеоклипе репортёр показывает зрителям экран своего смартфона. В последних сценах на нём изображён раздел с подарками в Telegram — с искрящейся аватаркой пользователя и анимацией самих объектов.

  • Без референса нейросеть такое не отрисует: она просто не знает, как выглядят экраны Telegram.
  • С референсом же не получится добиться стабильности: интерфейс будет «плыть», а его элементы — меняться.

Сторонняя команда, которая тоже работала над проектом, вручную воссоздала сами экраны, но не смогла корректно «притречить» их к смартфону.

Задачу перехватила Mamontov Production — у неё уже был похожий кейс за плечами. Команда не могла «нарисовать» окружающий мир вместе с персонажем, поэтому сначала сгенерировала его на зелёном фоне с метками для отслеживания движений, а уже потом подставила окружение.

В этот раз взяли плагин для Blender под названием GeoTracker. Он работает на основе алгоритмов машинного обучения: анализирует изображение, просчитывает проекцию, создаёт вымышленную 3D-сцену и помогает отследить, где находится телефон и куда нужно «вставить» экраны.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram
Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Невошедшие правки

Уже после того как все сцены зарендерили, склеили и согласовали с менеджером заказчика, тот вдруг вернулся с просьбой от рэпера — в последних сценах надеть на репортёра бандану и цепочку с буквами LA.

Шесть «спецов» вместо 120 и сэкономленные «сотни тысяч долларов» благодаря нейросетям: как омичи поучаствовали в производстве клипа Snoop Dogg про подарки в Telegram

Mamontov Production заново перегенерировала фрагменты ночью, за несколько часов, взяв готовую статику и экраны мессенджера. На живой пересъём ушёл бы как минимум один съёмочный день, а это дополнительные расходы: на аренду оборудования, время съёмочной команды.

В финальную версию кадры не вошли. Почему — увы, неизвестно.

Не ИИ единым: сколько денег тратится на нейросети

Подсчитать средние расходы на использование ИИ-моделей сложно, говорят в Mamontov Production. Если в течение месяца используют в основном Veo 3, то это «тысячи долларов». Если Kling AI, то затраты составят на 30% меньше.

Собирать свои модели дорого и долго. Чаще всего мера вынужденная — если нужно обойти встроенные ограничения, как в кейсе со Снупом, или автоматизировать генерацию: скажем, отрисовать целые десятки персонажей для однотипных сюжетов или выпустить 30 роликов для одного бренда, в которых из раза в раз фигурирует один и тот же герой.

Когда работаешь с нейросетями, «восхищение и отчаяние ходят бок о бок». Но чем больше экспериментируешь, тем быстрее добиваешься нужного результата, говорят сооснователи. Сейчас на одну хорошую видеогенерацию у команды уходит в среднем 10-15 попыток и, если это Veo 3, то примерно по 700 рублей на каждую.

Бывают ситуации, когда работать приходится «в убыток». В одном из кейсов нейросеть не смогла сгенерировать уникальных персонажей, поэтому команде пришлось внепланово создавать и 3D-модели, и статику с последующей анимацией. Процесс растянулся и вовлёк больше людей. Но таких случаев — 1/20.

Чтобы подстраховать себя от ошибок, команда готовит «технички» по итогам проектов — нечто вроде методичек, где участники проекта расписывают, за что отвечали, какие инструменты использовали и какие промпты и для каких задач сработали особенно хорошо.

Но на самом деле основные затраты — это всё ещё не ИИ-модели как таковые, а зарплаты специалистов, которые с ними работают. Плюс в том, что с нейросетями дизайнеры могут быстрее закрывать проекты и тратить не 30 часов на один такой, а пять. Выходит, что «допкосты» студии, может, и растут, но вместе с тем повышается потенциальный оборот проектов, которые она может взять в работу.

Источник: YouTube

Ручной контроль: с чем нейросети пока не справляются

В коммерческих проектах продукт должен выглядеть идеально — вплоть до числа зёрнышек на палке колбасы. Провернуть такое, используя одни нейросети, не получится: колбаса в большинстве случаев останется колбасой, но зёрнышки «встанут» как попало, этикетка съедет, а логотип исказится.

Проблема в том, что у разработчиков по-прежнему мало инструментов для контроля. Если клиенту важно воспроизвести сложную физику — например, когда персонаж перепрыгивает через стулья, запрыгивает на один из них, а потом спрыгивает, — наверняка придётся менять ракурсы и отказываться от длинных сцен в пользу коротких. А для этого нужны режиссёрские навыки: понимание планов и динамики эпизода.

У нас был кейс: клиент хотел, чтобы лисичка легонько отодвинула лестницу и та аккуратно упала. Как бы случайно. У нейронки же то лисичка агрессивно сносила лестницу, то эта лестница чуть ли не разваливалась на части. Решение было только одно: перестроить кадр.

Никита Мамонтов, сооснователь Mamontov Production

Нейросети также плохо понимают сложные эмоции. Точнее понимают, просто по-своему. Чтобы модель сгенерировала одиночество так, как видит его сам заказчик, нужно потратить много времени на детальную проработку промптов либо — опять же — выстроить кадры так, чтобы эмоцию правильно «прочитал» уже потребитель.

Впрочем, приятные сюрпризы тоже бывают. Во втором своём эпизоде репортёр должен был умоляюще смотреть в камеру, точно котик из «Шрека», чтобы Snoop Dogg сжалился и осчастливил его подарками. Во всяком случае так его видели в Mamontov Production. Veo решила иначе — и хорошо.

Veo 3 создала более сложную эмоцию. Что-то среднее между гневом и разочарованием. Получилось куда интереснее и живее нашей идеи. Мы тогда сильно удивились.

Антон Караваев, сооснователь Mamontov Production

Если продакшн работает исключительно с нейроcетями и не владеет «традиционными» инструментами — Blender, Cinema 4D, After Effects, Unreal Engine, Premiere, Photoshop, Illustrator, Figma, Nuke и другими, — хорошего результата он вряд ли добьётся. Сложность производства как нейросцен, так и базовых CG-элементов, по факту одинаковая. Многие просто забывают, что ИИ — это не только простые сервисы вроде Kling AI, ChatGPT и Midjourney.

Мы пользуемся в том числе ComfyUI, где ты сам задаёшь настройки нейросетям. Там у тебя много контроля. Например, в Midjourney результат можно править в редакторе, но все, кто пытался, знают: работает он крайне плохо. ComfyUI же позволяет точечно править определённые участки изображения, подключая собственные LoRA, которые работают намного точнее. Иногда это растягивает процесс, но если сроки позволяют — почему нет.

Есть программа Cascadeur, которая создаёт 3D-анимацию по трём ключевым кадрам, предугадывая, какое действие пользователь рассчитывает увидеть.

Китайцы вообще выпустили вот что: ты загружаешь видеоролик, а нейросеть генерирует тебе динамическую навигационную сетку — сине-фиолетовую версию объекта, в которой каждому пикселю можно задать направление света. То есть можно взять и в любой момент в уже отснятом ролике «выставить» виртуальный источник света, который будет реалистично взаимодействовать с объектами в кадре.

Никита Мамонтов, сооснователь Mamontov Production

С развитием ИИ традиционный ручной труд начинает «немного обесцениваться». На рынке всё больше ценится совокупность прикладных навыков, насмотренности и креативности. Потому что чем проще техреализация, тем важнее умение мыслить, придумывать и доносить. Важно это вовремя осознать, считают в студии.

43
13
7
3
1
52 комментария