JSON-промты в VEO 3 - BUSTED
Если вы хоть немного интересовались созданием ИИ‑видео, то наверняка видели, как интернет накрыла волна постов про JSON‑промтинг. Авторы обещают более высокое разрешение картинки и полностью подкотрольную сцену.
Почему это не так, я рассказываю ниже.
Личный контекст
Впервые я увидел рилз про JSON‑промтинг в августе 2025 года. Я был совсем новичком в генерации видео, с опытом около месяца, но уже делал ролики на заказ.
Иногда мне не удавалось реализовать ТЗ так, как хотелось клиенту: где‑то модель уводила сцену, где‑то ломалась логика кадра. На этом фоне легко включался синдром самозванца: «Я все делаю не правильно, я ничего не знаю о нейросетях, нужно было пройти курсы».
В этот момент алгоритмы подкинули видео про JSON‑промты. Вслед за этим еще и заказчик написал: «Может, попробуешь писать промт в JSON‑структуре?». FOMO сработало идеально: казалось, что я единственный как динозавр пишу обычные промты, а все уже давно перешли на новый уровень.
Это и сподвигло меня изучить тему чуть глубже.
Что обещают JSON‑промты
В типичных постах и рилзах JSON‑промтинг для VEO подают примерно так:
- «Картинка и видео становятся гораздо качественнее и детальнее».
- «Сцена лучше контролируется: чёткая последовательность действий».
- «Обычный текстовый промт – для новичков, JSON – для тех, кто понимает, как “мыслят” нейросети».
Дальше обычно показывают две генерации: Слева — якобы «обычный» промт с видео качеством похуже, Справа — JSON‑промт с резкой картинкой и идеальной сценой.
Практический эксперимент: JSON против обычного промта
Чтобы проверить, так ли это, я взял готовый JSON‑промт из открытого источника и сделал две генерации:
Как вы видите получившиеся видео оказываются очень близки по качеству и логике сцены. Разница, если и есть, выглядит как естественный разброс результатов модели, а не следствие магического формата промта.
Почему JSON‑промтинг не делает чудес:
МИФ 1: “VEO лучше понимает код, чем обычный промт»
Часто можно услышать, что VEO лучше читает информацию написанную на языке машин и за счёт этого сделает видео более последовательным и управляемым.
На самом деле модель не «шагает» по строкам промта, как по программе, а пытается собрать общую картинку из смысла того, что вы написали.
Поэтому если вы в первой стройке опишете внешность персонажа, а в конце вспомните, что хотели добавить шляпу и напишете это там, шляпу VEO сгенерирует.
В официальном руководстве Google отдельно указано, какие параметры действительно помогают модели точнее понимать сцену (описание окружения, действия, стиля, камеры и т.п.). Также рекомендовано использовать указания тайм‑кодов или шагов, если вам важна последовательность событий.
МИФ 2: О высоком качестве
В ряде постов встречал утверждение, что JSON‑промт сам по себе даёт «более качественную» картинку. В тестовых роликах показывают два видео: обычный промт с низкой детализацией и JSON‑промт с наполненной деталями и улучшенной картинкой.
VEO не способно выйти за свои физические ограничения только потому, что вы написали запрос в фигурных скобках. Изменить может:
- выбор модели (VEO 3.1 fast или VEO 3.1 quality);
- последующая обработка апскейлером;
- более детальное описание сцены (что и как вы просите, а не как расставлены двоеточия).
МИФ 3: Длина, FPS и формат кадра задаются прямо в JSON‑промте
Во многих JSON‑промтах можно увидеть поля вроде:
- «duration: 3 seconds»
- «fps: 60»
- «resolution: 4k»
- «rotation: 16:9»
На момент написания статьи у VEO есть фиксированные ограничения, описанные в руководстве: длительность 8 секунд, стандартный FPS 24 кадра и заранее заданные пресеты разрешения и ориентации кадра.
Эти параметры задаются на уровне настроек интерфейса, а не читаются из текстового промта. Записать их в JSON можно, но модель не станет из‑за этого генерировать 4K‑видео длиной 3 секунды с 60 fps.
UPDATE. Пока перепроверял факт, увидел в руководстве возможность регулировать эти параметры в промте, если работать через подключение по API. Что совершенно логично так, как там нет преднастроенного интерфейса.
Так же там действительно есть возможность регулировать длительность видео: 4, 6 и 8 секунд на выбор. В веб-интерфейсе flow таких настроек пока нет.
Что в JSON‑подходе всё-таки полезно
Важно не свалиться из одного заблуждения в другое. JSON как формат не делает чудес с качеством, но в нём есть несколько реально полезных идей:
- Он заставляет вас думать структурно: отделять задачу, сцену, персонажей, камеру, стиль.
- Его удобно переиспользовать: можно менять отдельные блоки, не переписывая весь промт.
- Он помогает не потеряться в длинных запросах и быстрее видеть, что именно вы недоописали или нужно изменить.
По сути, ценность не в JSON как «магическом языке для нейросети», а в дисциплине мышления и аккуратности при постановке задачи. Того же эффекта можно добиться и обычным текстовым промтом, если вы пишете его структурно по блокам.
Вместо вывода:
На примере JSON‑промтинга хорошо видно, как быстро любая «фишка» превращается в шум. Пара удачных кейсов, несколько вирусных рилз и формат уже подают как must‑have, даже если в реальной работе всё куда приземлённее.
В такой среде полезно не столько охотиться за новыми «фишками», сколько тестировать на практике и на реальных задачах понимать ограничения разных моделей. А если завтра появится модный XML‑промтинг, всегда можно сначала задать себе простой вопрос: «Что тут реально меняется, кроме обёртки?».
Если у вас есть вопросы по теме или нужен человек, кто поможет сгенерировать видео под задачу, можете написать мне в Telegram.