Обзор нейросети Veo от Google: как сгенерировать видео с озвучкой

От редакции
Текст обновлён 9 июля 2025 года.

Повторяем культовую сцену из «Матрицы», оживляем Лабубу и генерируем ролик с динозавром-аналитиком.

В мае 2025 года компания Google представила Veo 3 — нейросеть, которая генерирует видео с озвучкой, в том числе на русском языке. С её помощью пользователи создают документальные сюжеты про бабушку и её бегемота Бульку-Барабульку, мультики, стендап-шоу и оперные выступления. Нюанс: модель платная и недоступна в России. Зато предыдущая версия нейросети, Veo 2, доступна бесплатно.

Этот текст — про обе модели генератора видео Veo. Рассказываем, чем одна модель отличается от другой, как создать ролик в Veo 2 и можно ли получить доступ к Veo 3 из России.

Бонус: в конце статьи — нейросеть, которая быстро выпустила доступный аналог нашумевшей Veo 3.

Содержание:

Что такое Veo

Veo — это генеративная модель от Google DeepMind. На конференции Google I/O 2025 компания представила её третью версию. Veo 3 создаёт ролики по текстовому описанию и, в отличие от предшественников, умеет создавать звуковую дорожку и синхронизировать видео с губами и закадровым шумом.

В Veo 3 получаются реалистичные диалоговые сцены. Источник: @MetaPuppet

Veo 3 — не первая попытка Google сделать универсальный инструмент для генерации видео. Ранее компания представила модели Imagen Video, Phenaki, VideoPoet, Lumiere, а также Veo и Veo 2. В новой версии Google объединила наработки из разных нейросетевых проектов: улучшила понимание текста и способность к интерпретации визуальных стилей, а также добавила генерацию аудиотрека — речи, музыки и звуков окружающего мира.

В ролики Veo 3 встроен цифровой водяной знак SynthID. Его не получится увидеть человеческим глазом, но он позволяет распознать, что контент сгенерирован ИИ. Это часть политики Google по борьбе с дезинформацией и дипфейками.

По заверениям компании, новая модель точнее работает с физикой объектов в кадре и учитывает особенности «съёмки» — вроде тряски камеры или изменения глубины резкости. На этом компания сделала акцент в анонсе Veo 3 и дала представителям киноиндустрии продемонстрировать возможности новинки в своих короткометражках.

Источник: blog.google

Где попробовать Veo и можно ли пользоваться нейросетью из России

На данный момент Veo 3 официально доступна только пользователям из США и ещё 71 страны. Среди них нет России и Беларуси, а также Великобритании или стран Европы. Руководитель команды Gemini Джош Вудворд пообещал, что список будет расширяться, но ожидать появления в нём России в ближайшее время точно не стоит.

С американским IP-адресом пользоваться Veo 3 можно на двух сайтах:

В обоих случаях пользователю потребуется подписка Google AI Ultra за $249 в месяц или Google AI Pro за $20 в месяц. Во втором случае есть ограничение — сгенерировать можно всего 10 роликов (за всё время).

Пользователи из России нашли лайфхак, как бесплатно генерировать видео в Veo 3. Понадобится американский IP, американский номер телефона и зарубежная карта. Номер телефона можно взять в аренду.

  1. Зарегистрируйте новый аккаунт Google.
  2. Перейдите на страницу Google AI Pro & Ultra и оформите пробную подписку. Новым пользователям сервис предложит бесплатный месяц.

Важно: другие способы получить доступ к Veo 3 могут быть мошенническими. У модели нет API, она не представлена на платформах-агрегаторах. Будьте бдительны, чтобы не попасться на удочку мошенников.

Такие сложности поджидают только тех, кто хочет попробовать Veo 3. Предыдущая, вторая модель работает бесплатно (но с ограничениями: всего в день можно сгенерировать до трёх видео). Воспользоваться Veo 2, помимо указанных выше сайтов, можно через Google AI Studio.

Как сгенерировать видео

Интерфейс всех трёх сайтов, где можно воспользоваться Veo, похож. Например, чтобы сгенерировать видео в Google AI Studio при помощи Veo 2, необходимо перейти во вкладку «Generate media» и выбрать «Veo».

Источник: aistudio.google.com
Источник: aistudio.google.com

На странице отобразится окно для ввода промпта и несколько настроек:

  • «Number of results» — число сгенерированных видео (одно или два).
  • «Aspect ratio» — соотношение сторон (16:9 или 9:16).
  • «Video duration» — длина видео (от пяти до восьми секунд).
  • «Frame rate» и «Resolution» — частота кадров и разрешение, менять нельзя.
  • «Negative prompt» — негативный промпт, то есть стоп-фразы для генерации.
Источник: aistudio.google.com
Источник: aistudio.google.com

Вводить промпты можно на русском языке, на создание восьмисекундного ролика у Veo уходит около минуты.

Эксперимент 1: создаём реалистичное видео

Для первого теста напишем запрос в стиле короткого рекламного клипа: «Динозавр в розовой майке с надписью vc.ru стоит возле футуристичной доски и лазерным указателем показывает на график, который улетает ввысь. Он рад, что у него отличные показатели. Видео в гиперреалистичном стиле».

Источник: генерация Veo

Ролик от Veo 2 полностью соответствует промпту, надпись на футболке читается хорошо. То же можно сказать и про стрелку на экране — она выглядит как компьютерная анимация из рекламных роликов середины 2010-х.

Veo неплохо ориентируется и в культурном контексте. Так, если указать в промпте «Санкт-Петербург», архитектура города будет угадываться, пускай и без конкретных деталей.

Запрос: «Девушка в длинном красном платье и с шариками стоит на крыше в Санкт-Петербурге. Её платье развевается, лёгкий ветер раздувает золотистые волосы. Девушка счастлива, у неё выходной».

Источник: генерация Veo

Эксперимент 2: повторяем сцену из фильма

Здесь попробуем воссоздать культовый фрагмент из фильма «Матрица». Для этого обратимся к Veo с таким запросом: «Мужчина в чёрном плаще эпически уклоняется от пули, словно в замедленной съёмке. Видео начинается с близкого плана на лицо мужчины, он в чёрных узких очках. Дальше — замедленная съёмка: мужчина наклоняется назад, его тело изгибается в воздухе. Вокруг летят частицы пыли, искры и обломки. Сцена кинематографичная, в тёмных тонах, глубоких зелёных и чёрных».

Разумеется, нейромужчина не похож на Киану Ривза. Источник: генерация Veo

В сцене действительно угадывается «Матрица» — к фильму отсылают похожие тона, поза и хореография. Однако нейросеть не до конца поняла искомую последовательность событий в кадре.

Эксперимент 3: оживляем картинку

Попросим Veo оживить изображение игрушки Лабубу, завирусившейся в последние недели. Промпт не понадобится: нейросеть просто дорисовывает кадры.

Источник: генерация Veo

Видео выглядит неплохо. Единственный недостаток генерации — брови, которые движутся невпопад. С другой стороны, может, именно так выглядела бы мимика Лабубу, будь она живой.

В июле 2025 года функцию добавили в модель Veo 3. С её помощью можно оживить и озвучить картинку, например, создать ролик с одним персонажем в разных локациях.

Источник: Captain HaHaa 

Эксперименты пользователей

После релиза Veo 3 соцсети заполонили ролики, в которых пользователи заставляют нейросетевые генерации рассуждать о самосознании и сложных философских вопросах. Частый сюжет: ведущий с микрофоном спрашивает у прохожих на улицах, понимают ли те, что они генерации искусственного интеллекта. Далее следует развязка, в которой герой выполняет действие, недоступное человеку. Например, прыгает на высоту четвёртого этажа или обнажает аквариум под шапкой.

Источник: aza_ai_expert

Несмотря на то, что создатели говорят о поддержке только английского языка, нейросеть уверенно справляется и с русской речью. Более того, понимает акценты и нюансы произношения. Сгенерированные голоса звучат естественно и попадают в движение губ.

Промпт для речи на русском языке: «says in Russian: [Нужный текст]». Источник: @oh_my_zen

Бесплатная альтернатива Veo 3

В мае 2025 года вышла новая версия китайской нейросети Kling. Конкурент Google объявил, что умеет «оживлять» видео и добавлять звук к нему по текстовому описанию.

Чтобы сделать из картинки видео с озвучкой:

  1. Сгенерируйте изображение в самом Kling или другой нейросети для генерации картинок, например Ideogram.
  2. Откройте вкладку «Video generation» и добавьте картинку (можно добавить начальный и конечный кадр, а можно только один).
  3. Укажите промпт, настройте длительность ролика, количество генераций и движение камеры.
  4. Добавьте негативный промпт, если это необходимо.
  5. Нажмите «Generate».
  6. Готовый ролик появится в ленте. Нажмите на кнопку «AI sound».
  7. Введите промпт для озвучки и нажмите на «Generate».

Если в Kling уже есть сгенерированное видео, его тоже можно озвучить — для этого пропустите первые пять этапов из инструкции выше.

Нейросеть сгенерирует четыре варианта озвучки. Источник: app.klingai.com
Нейросеть сгенерирует четыре варианта озвучки. Источник: app.klingai.com
Источник: app.klingai.com
Такое видео с озвучкой получилось из изображения, сгенерированного в Hailuo AI. Источник: app.klingai.com

Разработчики обещают добавить функцию «Elements» для создания ролика из фото с персонажем, его одеждой и локацией.

В июне 2025 года в Kling появилась возможность генерировать видео с озвучкой по текстовому промпту. Функция временно доступна бесплатно.

Не самый удачный эксперимент. Источник: app.klingai.com
Видео выглядит более реалистичным, но у русалки раздвоенный хвост. Звук тоже неидеальный: девушка открывает рот, но не поёт. Источник: app.klingai.com

Итог: главное о Google Veo

  • Генеративная модель от Google DeepMind Veo создаёт видеоклипы по текстовым описаниям и отличается от конкурентов высокой реалистичностью.
  • В Veo 3 можно генерировать сложные кинематографические приёмы (регулировать глубину резкости, движение камеры, светотени), а также добавлять озвучку — синхронную с речью, звуками и музыкой.
  • Veo 3 умеет работать с русской речью, голоса звучат естественно.
  • Veo работает только в США и ещё 71 стране — без России или Европы.
  • Чтобы использовать Veo 3, нужна подписка Google AI Ultra (за $249 в месяц) или Pro (за $20 в месяц).
  • Бесплатно можно сгенерировать видео в версии Veo 2. Она хорошо справляется с генерацией, но не умеет делать озвучку.
  • У Veo 3 появился конкурент — китайская нейросеть Kling.
9
5
1
9 комментариев