Kling AI 2.6: первая нейросеть, которая генерит видео со звуком. Тестируем на практике

Результат не очень, но я тестил всего 20 минут.

Помните, как недавно мы радовались, что AI научился делать видео без лишних пальцев? Ну так вот, пока мы моргали, китайцы из Kuaishou выкатили Kling AI 2.6 — и это уже совсем другой уровень. Впервые в одной модели соединили видео и аудио. Не нужно отдельно генерить звук, сводить, молиться, чтобы синхронизация совпала. Всё сразу, одним запросом.

Я потратил 20 минут на эксперименты, и вот что из этого вышло. Ролик выше состоит из 3 частей по 5,5,7 секунд. Сразу были добавлены две фото моя и персоны Аура.

Что нового в Kling 2.6

Итак, по порядку. Kling — это не новичок на рынке AI-видео, но версия 2.6 реально выделяется:

Нативная генерация звука. Раньше все модели (Sora, Veo, Runway) выдавали немое кино. Потом звук прикручивали отдельными инструментами. Kling 2.6 генерит аудио вместе с картинкой. Диалоги, фоновые шумы, музыка — всё в одном пакете.

1080p без апскейла. Не 720p с последующим увеличением, а сразу Full HD. Многие конкуренты (тот же Veo 3) дают только 720p и предлагают "улучшить качество" отдельной кнопкой. Здесь всё честно.

Pro API для создателей контента. Через партнёрство с Artlist получаем filmmaker-focused инструменты. Если вы делаете контент профессионально, это важно — больше контроля, стабильные результаты.

Консистентность персонажей. Вот это реально прорыв. В прошлых версиях герой мог поменять причёску или цвет глаз между кадрами. Теперь обещают, что персонаж остаётся узнаваемым на протяжении всего ролика.

А что там с Kling O1?

Оке, а теперь самое интересное. Параллельно с 2.6 ребята из Kuaishou запустили Kling O1 — и это уже не просто генератор, а полноценный AI-редактор видео. Представьте швейцарский нож, только для монтажа.

Что это вообще такое? Kling O1 — это мультимодальная модель, которая принимает на вход всё подряд: текст, картинки, готовые видео. И что самое крутое — можно комбинировать всё это в одном запросе. Хотите взять фото персонажа, добавить его в видео, поменять фон и стилизовать под аниме? Пожалуйста, один промпт решает всё.

В сообществе это окрестили "Nano Banana для видео". Если не в курсе — Nano Banana это про мультимодальные модели, которые умеют работать с разными типами данных одновременно. Вот Kling O1 ровно про это, только для видео.

Что умеет O1:

  • Text-to-Video — классика, описываете текстом, получаете видео
  • Image-to-Video — берёте картинку, оживляете её
  • Video-to-Video — загружаете видео, меняете стиль или содержание
  • Inpainting — редактируете конкретные объекты внутри сцены (убрать человека из кадра, поменять цвет машины)
  • Интерполяция по кадрам — плавные переходы между сценами
  • Стилизация — можно взять реалистичное видео и перегнать в мультяшный стиль или наоборот
  • Комбинирование — смешиваете видео и изображения в одной сцене
  • Расширение ролика — продлеваете видео за пределы исходного

Важно: Длительность роликов в O1 — от 3 до 10 секунд, разрешение до 1080p. Генерация аудио тоже встроена, как и в версии 2.6.

Вот где это реально полезно: допустим, у вас есть концепт персонажа (просто картинка). Загружаете её в O1, пишете промпт "персонаж идёт по улице ночного города, неоновые огни, киберпанк-стиль" — и модель не просто создаст сцену, но и сохранит вашего персонажа узнаваемым. Лицо, одежда, пропорции — всё остаётся консистентным.

Лайфхак: Если нужно сделать серию связанных сцен с одним персонажем, используйте image-to-video режим. Сгенерите первую сцену, возьмите из неё ключевой кадр персонажа и используйте его как референс для следующей сцены. Так консистентность будет выше, чем если каждый раз генерить с нуля.

Ещё один прикол — O1 корректно понимает структуру движения и физику сцены. Если персонаж бежит, камера следит за ним плавно, а не дёргается как в старых моделях. Если объект падает — падает с правильным ускорением, а не зависает в воздухе.

Интересно: В O1 есть функция изменения объектов внутри сцены. Типа, у вас видео с красной машиной, но вы хотите синюю. Просто указываете "change car color to blue" — и модель перекрашивает машину прямо в движении, сохраняя освещение и тени. Звучит как магия, но работает вполне стабильно.

Правда, есть нюанс. O1 — это более сложный инструмент, чем просто генератор. Здесь нужно чуть больше понимать, что вы хотите получить. Для быстрых экспериментов подойдёт базовый Kling 2.6, а O1 — для тех, кто готов копнуть глубже и потратить время на настройку.

Доступ к O1 есть на том же сайте klingai.com, в разделе с инструментами редактирования. Там же можно найти гайд по использованию — рекомендую глянуть, потому что возможностей много и не все очевидны с первого взгляда.

Как это работает на практике

Оке, теория — это хорошо, но мы же здесь ради практики, верно? Взял простой промпт: "Молодой человек в кафе задумчиво смотрит в окно, за окном идёт дождь, приглушённый свет, атмосферно".

Лайфхак: Чтобы камера не прыгала как бешеная (а это проблема всех AI-видео моделей), добавьте в промпт "fixed lens, the camera is stationary" или "static shot". Работает не на 100%, но шансы на спокойный кадр вырастают в разы.

Время генерации: около 2-3 минут для 10-секундного ролика. Это быстрее, чем у Runway Gen-4, но медленнее Luma Dream Machine.

Что получилось:

  • Картинка действительно в 1080p, детализация приличная
  • Звук есть: шум дождя, какой-то фоновый гул кафе
  • Персонаж не морфится в процессе (ура!)
  • НО: лицо двигается странновато, только губы шевелятся, остальная мимика статична

Дальше попробовал сгенерить короткий диалог — двое людей разговаривают за столом. Тут началось веселье.

Подводные камни, о которых не пишут в анонсах

А теперь честно, без рекламы. Модель крутая, но идеальной не назовёшь.

Странные движения. Пользователи на Reddit жалуются не зря. У персонажей часто двигаются только рты, а остальное лицо — маска. Нет естественных микродвижений бровей, глаз, щёк. Выглядит как дешёвая анимация.

AI-zoom. Вот это настоящая беда всех генеративных моделей. Камера постоянно хочет куда-то ехать, приближаться, отдаляться. Даже с промптом про статичность. Один комментатор написал: "These video generators are incapable of producing a static shot lol" — и он прав на 80%.

Аудио отстаёт от реальности. Звук есть, но он какой-то... синтетический? Диалоги звучат с паузами, как в трейлерах. Один пользователь подметил: "every line has a dramatic trailer pause". Точно подмечено.

Китайский vs английский. Забавная деталь: видео с китайским аудио звучат гораздо естественнее, чем с английским. Видимо, модель тренировали в основном на китайских данных. Если работаете с английским контентом — будьте готовы к более искусственному звучанию.

Внимание: Если планируете использовать для серьёзного проекта, закладывайте время на пост-обработку. AI даёт хорошую базу, но не финальный продукт.

Сравнение с конкурентами

Давайте честно: на рынке сейчас жёсткая конкуренция.

Runway Gen-4.5 только что вышел на первое место в рейтингах, обогнав Veo 3, Sora 2 Pro и сам Kling. Его козырь — физическая реалистичность. Динамика жидкостей, отражения света, импульсы движения — всё это Gen-4.5 делает лучше.

Veo 3 от Google генерит в 720p с апскейлом до 1080p. Аудио тоже добавили, но чуть позже Kling. Veo 3.1 уже умеет в нативный 1080p, но доступ ограничен.

Sora 2 Pro от OpenAI — вообще отдельная история. Долгожданный релиз, но доступ ограничен, цены кусаются.

Qwen Video 5.3 — китайцы не дремлют. Буквально через 10 минут после анонса Kling появился новый конкурент. Как написал один пользователь: "10 mins later: Qwen just dropped Qwen video 5.3 the newest best ai video model". Темп безумный. Правда, это open-source модель, и чтобы её запустить, нужна GPU на 16-96GB и умение работать с ComfyUI. Не для всех, короче.

Вывод: Kling 2.6 не лучший, но в топ-3 точно входит. Особенно если нужен быстрый результат со встроенным звуком. А если нужны более продвинутые инструменты редактирования — Kling O1 даёт хороший набор возможностей.

Кому это реально нужно

Вот вопрос на миллион: а зачем вообще всё это? Кто будет использовать AI-видео в реальных проектах?

Создатели контента для соцсетей. Короткие ролики для Instagram, TikTok, YouTube Shorts — здесь AI уже вполне применим. Качество достаточное, скорость производства высокая.

Прототипирование и сториборды. Перед съёмкой можно быстро визуализировать идею. Дешевле и быстрее, чем рисовать вручную или нанимать художника. Режиссёры и креативные директора могут показать клиенту концепт за час, а не за неделю.

Фоновые сцены и VFX. Вот тут реально полезно. Нужен задний план с городом или пейзаж? AI справится. Один комментатор спрашивал про боевые сцены для фона — вполне реально. Дорогие VFX-шоты теперь можно делать за копейки.

Инди-проекты с нулевым бюджетом. Если раньше качественное видео требовало камеру, свет, актёров, локацию, то теперь можно сделать приличный прототип за минуты. Не для финального релиза, но для тестирования идеи — самое то.

Маркетинг и реклама. Нужно быстро сделать промо-ролик для товара? A/B тестирование креативов? AI позволяет генерить десятки вариантов за день.

Важно: Профессиональное кино AI пока не заменит. Но для определённых задач — уже сейчас рабочий инструмент.

Что будет дальше

ChatGPT вышел 3 года назад, а мы уже генерим видео со звуком в 1080p. Что будет через год?

Основные проблемы, которые нужно решить:

  • Консистентность на длинных отрезках. 10 секунд — это мало. Нужны минуты, а лучше — полноценные сцены.
  • Редактируемость. Сейчас что сгенерилось, то и есть. Хочется возможность менять детали без регенерации всего ролика. Правда, Kling O1 уже двигается в этом направлении с inpainting и редактированием объектов.
  • Естественная мимика и движения. Люди должны выглядеть как люди, а не как маски с подвижным ртом.
  • Диалоги. Нормальные, с эмоциями, без трейлерных пауз.

В комментариях идут споры. Один лагерь говорит: "Ещё два года минимум до нормальных результатов". Другой лагерь возражает: "Вы что, два года назад у нас руки с шестью пальцами были, а сейчас видео со звуком. Ещё год — и будем фильмы снимать".

Интересно: Самый острый вопрос — этический. Игроки Fortnite недавно обвинили Epic Games в использовании AI для создания контента. Разглядели странное количество пальцев на ногах у снежного человека. Художник показал процесс рисования в Procreate, доказывая, что всё вручную, но осадочек остался. Глава Epic прямо заявил: "AI будет применяться почти во всех будущих игровых проектах". Дискуссия только начинается.

В Англии студенты протестуют против AI в обучении. Заметили, что лекции по программированию сгенерированы нейросетью — синтетический голос, поверхностное содержание. При этом самим студентам использовать AI запрещено. Двойные стандарты, ага.

Практические рекомендации

Итак, если решите попробовать Kling 2.6 или O1, вот что нужно знать:

Devhack: Начинайте с коротких промптов. 1-2 предложения, конкретика. Не пишите сочинение — модель не осилит сложные инструкции.

Devhack: Используйте reference images. Если есть концепт-арт или фото похожего стиля — загружайте. Результат будет стабильнее. Особенно актуально для O1, где можно комбинировать изображения и видео.

Devhack: Генерите несколько вариантов. AI — это лотерея. Из пяти попыток две будут хорошими, одна — отличной, остальные — в корзину.

Devhack: Для консистентных персонажей используйте image-to-video в O1. Сначала создайте или загрузите качественное изображение персонажа, а потом оживляйте его. Так контроль над внешностью будет выше.

Внимание: Не полагайтесь на AI для критически важных проектов с дедлайном. Технология всё ещё непредсказуемая. Лучше иметь запасной план.

Внимание: Цены на железо взлетели. RAM подорожала на 50% с начала года, и к середине 2026-го вырастет ещё в полтора раза. Виноваты дата-центры NVIDIA, которые скупают всё подряд. Так что если планируете запускать модели локально — делайте это сейчас, пока не стало ещё дороже.

Что в итоге

Kling AI 2.6 — это солидный шаг вперёд. Видео со звуком в одной генерации, 1080p, приличная консистентность персонажей. А Kling O1 добавляет серьёзные инструменты редактирования, которых не хватало базовым генераторам. Для экспериментов, прототипов и быстрого контента — вполне рабочий вариант.

Но назвать это "революцией в AI-кинопроизводстве" пока рано. Странные движения, синтетический звук, неконтролируемая камера — проблемы никуда не делись. Это отличный инструмент, но инструмент с ограничениями.

(Подписывайтесь чтобы не пропустить интересное в мире ИИ. Я тимлид проекта, мы разрабатываем на node.js + Flutter, активно используем ИИ в разработке)

3
Начать дискуссию