Обзор нейросети Veo от Google: как сгенерировать видео с озвучкой
Повторяем культовую сцену из «Матрицы», оживляем Лабубу и генерируем ролик с динозавром-аналитиком.
В мае 2025 года компания Google представила Veo 3 — нейросеть, которая генерирует видео с озвучкой, в том числе на русском языке. С её помощью пользователи создают документальные сюжеты про бабушку и её бегемота Бульку-Барабульку, мультики, стендап-шоу и оперные выступления. Нюанс: модель платная и недоступна в России. Зато предыдущая версия нейросети, Veo 2, доступна бесплатно.
Этот текст — про обе модели генератора видео Veo. Рассказываем, чем одна модель отличается от другой, как создать ролик в Veo 2 и можно ли получить доступ к Veo 3 из России.
Бонус: в конце статьи — нейросеть, которая быстро выпустила доступный аналог нашумевшей Veo 3.
Содержание:
Что такое Veo
Veo — это генеративная модель от Google DeepMind. На конференции Google I/O 2025 компания представила её третью версию. Veo 3 создаёт ролики по текстовому описанию и, в отличие от предшественников, умеет создавать звуковую дорожку и синхронизировать видео с губами и закадровым шумом.
Veo 3 — не первая попытка Google сделать универсальный инструмент для генерации видео. Ранее компания представила модели Imagen Video, Phenaki, VideoPoet, Lumiere, а также Veo и Veo 2. В новой версии Google объединила наработки из разных нейросетевых проектов: улучшила понимание текста и способность к интерпретации визуальных стилей, а также добавила генерацию аудиотрека — речи, музыки и звуков окружающего мира.
В ролики Veo 3 встроен цифровой водяной знак SynthID. Его не получится увидеть человеческим глазом, но он позволяет распознать, что контент сгенерирован ИИ. Это часть политики Google по борьбе с дезинформацией и дипфейками.
По заверениям компании, новая модель точнее работает с физикой объектов в кадре и учитывает особенности «съёмки» — вроде тряски камеры или изменения глубины резкости. На этом компания сделала акцент в анонсе Veo 3 и дала представителям киноиндустрии продемонстрировать возможности новинки в своих короткометражках.
Где попробовать Veo и можно ли пользоваться нейросетью из России
На данный момент Veo 3 официально доступна только пользователям из США и ещё 71 страны. Среди них нет России и Беларуси, а также Великобритании или стран Европы. Руководитель команды Gemini Джош Вудворд пообещал, что список будет расширяться, но ожидать появления в нём России в ближайшее время точно не стоит.
С американским IP-адресом пользоваться Veo 3 можно на двух сайтах:
В обоих случаях пользователю потребуется подписка Google AI Ultra за $249 в месяц или Google AI Pro за $20 в месяц. Во втором случае есть ограничение — сгенерировать можно всего 10 роликов (за всё время).
Пользователи из России нашли лайфхак, как бесплатно генерировать видео в Veo 3. Понадобится американский IP, американский номер телефона и зарубежная карта. Номер телефона можно взять в аренду.
- Зарегистрируйте новый аккаунт Google.
- Перейдите на страницу Google AI Pro & Ultra и оформите пробную подписку. Новым пользователям сервис предложит бесплатный месяц.
Важно: другие способы получить доступ к Veo 3 могут быть мошенническими. У модели нет API, она не представлена на платформах-агрегаторах. Будьте бдительны, чтобы не попасться на удочку мошенников.
Такие сложности поджидают только тех, кто хочет попробовать Veo 3. Предыдущая, вторая модель работает бесплатно (но с ограничениями: всего в день можно сгенерировать до трёх видео). Воспользоваться Veo 2, помимо указанных выше сайтов, можно через Google AI Studio.
Как сгенерировать видео
Интерфейс всех трёх сайтов, где можно воспользоваться Veo, похож. Например, чтобы сгенерировать видео в Google AI Studio при помощи Veo 2, необходимо перейти во вкладку «Generate media» и выбрать «Veo».
На странице отобразится окно для ввода промпта и несколько настроек:
- «Number of results» — число сгенерированных видео (одно или два).
- «Aspect ratio» — соотношение сторон (16:9 или 9:16).
- «Video duration» — длина видео (от пяти до восьми секунд).
- «Frame rate» и «Resolution» — частота кадров и разрешение, менять нельзя.
- «Negative prompt» — негативный промпт, то есть стоп-фразы для генерации.
Вводить промпты можно на русском языке, на создание восьмисекундного ролика у Veo уходит около минуты.
Эксперимент 1: создаём реалистичное видео
Для первого теста напишем запрос в стиле короткого рекламного клипа: «Динозавр в розовой майке с надписью vc.ru стоит возле футуристичной доски и лазерным указателем показывает на график, который улетает ввысь. Он рад, что у него отличные показатели. Видео в гиперреалистичном стиле».
Ролик от Veo 2 полностью соответствует промпту, надпись на футболке читается хорошо. То же можно сказать и про стрелку на экране — она выглядит как компьютерная анимация из рекламных роликов середины 2010-х.
Veo неплохо ориентируется и в культурном контексте. Так, если указать в промпте «Санкт-Петербург», архитектура города будет угадываться, пускай и без конкретных деталей.
Запрос: «Девушка в длинном красном платье и с шариками стоит на крыше в Санкт-Петербурге. Её платье развевается, лёгкий ветер раздувает золотистые волосы. Девушка счастлива, у неё выходной».
Эксперимент 2: повторяем сцену из фильма
Здесь попробуем воссоздать культовый фрагмент из фильма «Матрица». Для этого обратимся к Veo с таким запросом: «Мужчина в чёрном плаще эпически уклоняется от пули, словно в замедленной съёмке. Видео начинается с близкого плана на лицо мужчины, он в чёрных узких очках. Дальше — замедленная съёмка: мужчина наклоняется назад, его тело изгибается в воздухе. Вокруг летят частицы пыли, искры и обломки. Сцена кинематографичная, в тёмных тонах, глубоких зелёных и чёрных».
В сцене действительно угадывается «Матрица» — к фильму отсылают похожие тона, поза и хореография. Однако нейросеть не до конца поняла искомую последовательность событий в кадре.
Эксперимент 3: оживляем картинку
Попросим Veo оживить изображение игрушки Лабубу, завирусившейся в последние недели. Промпт не понадобится: нейросеть просто дорисовывает кадры.
Видео выглядит неплохо. Единственный недостаток генерации — брови, которые движутся невпопад. С другой стороны, может, именно так выглядела бы мимика Лабубу, будь она живой.
В июле 2025 года функцию добавили в модель Veo 3. С её помощью можно оживить и озвучить картинку, например, создать ролик с одним персонажем в разных локациях.
Эксперименты пользователей
После релиза Veo 3 соцсети заполонили ролики, в которых пользователи заставляют нейросетевые генерации рассуждать о самосознании и сложных философских вопросах. Частый сюжет: ведущий с микрофоном спрашивает у прохожих на улицах, понимают ли те, что они генерации искусственного интеллекта. Далее следует развязка, в которой герой выполняет действие, недоступное человеку. Например, прыгает на высоту четвёртого этажа или обнажает аквариум под шапкой.
Несмотря на то, что создатели говорят о поддержке только английского языка, нейросеть уверенно справляется и с русской речью. Более того, понимает акценты и нюансы произношения. Сгенерированные голоса звучат естественно и попадают в движение губ.
Бесплатная альтернатива Veo 3
В мае 2025 года вышла новая версия китайской нейросети Kling. Конкурент Google объявил, что умеет «оживлять» видео и добавлять звук к нему по текстовому описанию.
Чтобы сделать из картинки видео с озвучкой:
- Сгенерируйте изображение в самом Kling или другой нейросети для генерации картинок, например Ideogram.
- Откройте вкладку «Video generation» и добавьте картинку (можно добавить начальный и конечный кадр, а можно только один).
- Укажите промпт, настройте длительность ролика, количество генераций и движение камеры.
- Добавьте негативный промпт, если это необходимо.
- Нажмите «Generate».
- Готовый ролик появится в ленте. Нажмите на кнопку «AI sound».
- Введите промпт для озвучки и нажмите на «Generate».
Если в Kling уже есть сгенерированное видео, его тоже можно озвучить — для этого пропустите первые пять этапов из инструкции выше.
Разработчики обещают добавить функцию «Elements» для создания ролика из фото с персонажем, его одеждой и локацией.
В июне 2025 года в Kling появилась возможность генерировать видео с озвучкой по текстовому промпту. Функция временно доступна бесплатно.
Итог: главное о Google Veo
- Генеративная модель от Google DeepMind Veo создаёт видеоклипы по текстовым описаниям и отличается от конкурентов высокой реалистичностью.
- В Veo 3 можно генерировать сложные кинематографические приёмы (регулировать глубину резкости, движение камеры, светотени), а также добавлять озвучку — синхронную с речью, звуками и музыкой.
- Veo 3 умеет работать с русской речью, голоса звучат естественно.
- Veo работает только в США и ещё 71 стране — без России или Европы.
- Чтобы использовать Veo 3, нужна подписка Google AI Ultra (за $249 в месяц) или Pro (за $20 в месяц).
- Бесплатно можно сгенерировать видео в версии Veo 2. Она хорошо справляется с генерацией, но не умеет делать озвучку.
- У Veo 3 появился конкурент — китайская нейросеть Kling.