Veo 3 для e-learning: личный опыт использования и выводы для образовательного контента

Наверно, все уже видели огромное количество роликов, сгенерированных в этой нейросети. Их так много, что Google начал пессимизировать ИИ-контент на YouTube, чтобы вся площадка не превратилась в сборник юмористических сгенерированных роликов про бабушек, у которых дома живет бегемот.

Но одно дело 100 раз увидеть готовый контент, а другое — попробовать продукт самому. Вот о моем небольшом опыте и поговорим.

- Veo 3 – лучшая нейросеть для генерации видео на сегодняшний день, и обходит ближайших конкурентов (KlingAI и Hedra) на пару шагов;

- Дорогая. Адекватный пакет стоит 200$ в месяц (130$, если покупаешь на год). За эти деньги получаешь ограниченное количество генераций;

- Классные ролики, которые мы видим в интернете, – большая работа как в самой нейросети: промптинг, итерации, обход ограничений, так и в постпродакшене: добавление звуков, текста, эффектов, да и просто монтаж.

Мои видео получились не идеальными. Но это и хорошо: говорить об ограничениях нейросетей не менее интересно, чем об их возможностях.

Загрузил фотографию с Elements 2025 и решил оживить ее простым промптом: «Мужчина достает геймпад и начинает играть в гонки на огромном экране».

Опыт показал: качество и детализация промпта в генерации видео играет еще большую роль, чем при генерации изображений и простых текстов. Так как это не просто изображение, а небольшой сюжет, – поле для фантазий у ИИ огромное. Нужно детально прописывать все, что ты хочешь видеть: начиная от мимики и жестов, заканчивая полным описанием мельчайших действий и звуков.

Veo сама «считала сюжет» фотографии, предположила, что идет какое-то выступление с презентаций, и, что логично, спикер должен озвучивать тезисы со слайдов. Озвучила хорошо, липсинк тоже на высоте.

Но «предположить» нейросеть может не все. Например, когда ты в одной руке держишь кликер, а в другой микрофон, то, чтобы достать геймпад, – тебе нужно куда-то положить то, что у тебя в руках. Вот такие мелочи нужно прописывать в промпте. В начале положил кликер и микрофон на стол – потом достал геймпад.

Звук игры нейросеть добавила самостоятельно, а вот добавить звуки зала не догадалась – опять же возвращаемся к необходимости прописывать детали в промпте или добавлять их на постпродакшене.

Так же видео наглядно показывает слабые места нейросети – сильно вращать глазами и головой не следует: появляются артефакты, да и просто лицо меняется.

Здесь я дал нейросети свободу действий и попросил анимировать логотип как у киностудий (без конкретики). Не знаю уж, насколько результат «как у киностудий», но сама анимация выглядит логично. Однозначно уже сейчас можно использовать в e-learning и делать графики, схемы и другие поясняющие элементы видео более живыми и привлекательными буквально за минуту.

- Русскую речь генерирует хорошо, но делает это не всегда. Зачастую просто получаешь видео вообще без звука (около 30% генераций русской речи проходят удачно);

- Есть шаблонные действия, которые нейросеть генерирует отлично. Например, прогулки по оживленным улицам, поездки на машине по живописным местам, переходы камеры на красивых локациях и прочие футажи (сразу понятно, на каком контенте преимущественно обучалась нейросеть).

- Veo все еще борется с физикой и логикой. Предметы могут появляться и исчезать из ниоткуда, тени иногда ложатся нелогично, а взаимодействие между объектами часто выглядит как глюк. Проблемы решаются подробным промптингом и итерациями.

Пока о создании голливудского блокбастера в один клик речь не идет, но вот по качеству видео и «актерской игре» Veo 3 уже уверенно обходит сериалы в духе «Простушка Клава из деревни н. Лопухи приезжает в Москву, где становится уборщицей у миллионера, с которым встречается лицемерная Анжела из-за его денег и строит Клаве козни».

Veo 3 — это не «нажал кнопку — получил шедевр». Это сложный инструмент, требующий навыков и насмотренности.

Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач, в том числе про использование ИИ в e-learning. Присоединяйтесь.

Veo 3 для e-learning: личный опыт использования и выводы для образовательного контента

Сразу озвучу три основных тезиса:

Пример 1. Оживление фото

Пример 2. Анимация логотипа.

Прочие наблюдения:

Как итог: