JSON-промты в VEO 3 - BUSTED

Если вы хоть немного интересовались созданием ИИ‑видео, то наверняка видели, как интернет накрыла волна постов про JSON‑промтинг. Авторы обещают более высокое разрешение картинки и полностью подкотрольную сцену.

Почему это не так, я рассказываю ниже.

Впервые я увидел рилз про JSON‑промтинг в августе 2025 года. Я был совсем новичком в генерации видео, с опытом около месяца, но уже делал ролики на заказ.

Иногда мне не удавалось реализовать ТЗ так, как хотелось клиенту: где‑то модель уводила сцену, где‑то ломалась логика кадра. На этом фоне легко включался синдром самозванца: «Я все делаю не правильно, я ничего не знаю о нейросетях, нужно было пройти курсы».

В этот момент алгоритмы подкинули видео про JSON‑промты. Вслед за этим еще и заказчик написал: «Может, попробуешь писать промт в JSON‑структуре?». FOMO сработало идеально: казалось, что я единственный как динозавр пишу обычные промты, а все уже давно перешли на новый уровень.

Это и сподвигло меня изучить тему чуть глубже.

В типичных постах и рилзах JSON‑промтинг для VEO подают примерно так:

«Картинка и видео становятся гораздо качественнее и детальнее».
«Сцена лучше контролируется: чёткая последовательность действий».
«Обычный текстовый промт – для новичков, JSON – для тех, кто понимает, как “мыслят” нейросети».

Дальше обычно показывают две генерации: Слева — якобы «обычный» промт с видео качеством похуже, Справа — JSON‑промт с резкой картинкой и идеальной сценой.

Чтобы проверить, так ли это, я взял готовый JSON‑промт из открытого источника и сделал две генерации:

Вариант 1: использую этот же промт в формате JSON с теми же значениями.

Вариант 2: переписываю тот же запрос как обычный структурный текст: блоки смыслов, перечисления, без фигурных скобок и «мусорных» параметров вроде длины или FPS.

Как вы видите получившиеся видео оказываются очень близки по качеству и логике сцены. Разница, если и есть, выглядит как естественный разброс результатов модели, а не следствие магического формата промта.

Часто можно услышать, что VEO лучше читает информацию написанную на языке машин и за счёт этого сделает видео более последовательным и управляемым.

На самом деле модель не «шагает» по строкам промта, как по программе, а пытается собрать общую картинку из смысла того, что вы написали.

Поэтому если вы в первой стройке опишете внешность персонажа, а в конце вспомните, что хотели добавить шляпу и напишете это там, шляпу VEO сгенерирует.

В официальном руководстве Google отдельно указано, какие параметры действительно помогают модели точнее понимать сцену (описание окружения, действия, стиля, камеры и т.п.). Также рекомендовано использовать указания тайм‑кодов или шагов, если вам важна последовательность событий.

В ряде постов встречал утверждение, что JSON‑промт сам по себе даёт «более качественную» картинку. В тестовых роликах показывают два видео: обычный промт с низкой детализацией и JSON‑промт с наполненной деталями и улучшенной картинкой.

VEO не способно выйти за свои физические ограничения только потому, что вы написали запрос в фигурных скобках. Изменить может:

выбор модели (VEO 3.1 fast или VEO 3.1 quality);
последующая обработка апскейлером;
более детальное описание сцены (что и как вы просите, а не как расставлены двоеточия).

Во многих JSON‑промтах можно увидеть поля вроде:

«duration: 3 seconds»
«fps: 60»
«resolution: 4k»
«rotation: 16:9»

На момент написания статьи у VEO есть фиксированные ограничения, описанные в руководстве: длительность 8 секунд, стандартный FPS 24 кадра и заранее заданные пресеты разрешения и ориентации кадра.

Эти параметры задаются на уровне настроек интерфейса, а не читаются из текстового промта. Записать их в JSON можно, но модель не станет из‑за этого генерировать 4K‑видео длиной 3 секунды с 60 fps.

UPDATE. Пока перепроверял факт, увидел в руководстве возможность регулировать эти параметры в промте, если работать через подключение по API. Что совершенно логично так, как там нет преднастроенного интерфейса.

Так же там действительно есть возможность регулировать длительность видео: 4, 6 и 8 секунд на выбор. В веб-интерфейсе flow таких настроек пока нет.

Важно не свалиться из одного заблуждения в другое. JSON как формат не делает чудес с качеством, но в нём есть несколько реально полезных идей:

Он заставляет вас думать структурно: отделять задачу, сцену, персонажей, камеру, стиль.
Его удобно переиспользовать: можно менять отдельные блоки, не переписывая весь промт.
Он помогает не потеряться в длинных запросах и быстрее видеть, что именно вы недоописали или нужно изменить.

По сути, ценность не в JSON как «магическом языке для нейросети», а в дисциплине мышления и аккуратности при постановке задачи. Того же эффекта можно добиться и обычным текстовым промтом, если вы пишете его структурно по блокам.

На примере JSON‑промтинга хорошо видно, как быстро любая «фишка» превращается в шум. Пара удачных кейсов, несколько вирусных рилз и формат уже подают как must‑have, даже если в реальной работе всё куда приземлённее.

В такой среде полезно не столько охотиться за новыми «фишками», сколько тестировать на практике и на реальных задачах понимать ограничения разных моделей. А если завтра появится модный XML‑промтинг, всегда можно сначала задать себе простой вопрос: «Что тут реально меняется, кроме обёртки?».

Если у вас есть вопросы по теме или нужен человек, кто поможет сгенерировать видео под задачу, можете написать мне в Telegram.

JSON-промты в VEO 3 - BUSTED

Личный контекст

Что обещают JSON‑промты

Практический эксперимент: JSON против обычного промта

Почему JSON‑промтинг не делает чудес:

МИФ 1: “VEO лучше понимает код, чем обычный промт»

МИФ 2: О высоком качестве

МИФ 3: Длина, FPS и формат кадра задаются прямо в JSON‑промте

Что в JSON‑подходе всё-таки полезно

Вместо вывода: