Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Введение

В этой статье я хочу поделиться с вами своими мыслями о новой китайской нейросети для генерации видео на базе искусственного интеллекта под названием Kling, которая может серьезно конкурировать с популярной нейронкой Sora от известной компании OpenAI. Подробно рассмотрим возможности Kling, сравним его с другими подобными разработками и попытаемся спрогнозировать, какое влияние он может оказать на индустрию видеоконтента в ближайшем будущем.

Привет! На связи Роман Шарафутдинов. Я маркетолог, продюсер, специалист по нейросетям, спикер.

Занимаюсь стратегическим маркетингом, продюсированием, помогаю экспертам, блогерам, предпринимателям и фрилансерам внедрять нейросети в свою работу, экономить время/деньги и зарабатывать больше за счет внедрения ИИ.

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

Что такое Kling?

Kling - это новейший генератор видео на основе ИИ от пекинской компании Kuaishou ("быстрая рука"), которая соперничает с TikTok.

Kling способен генерировать видео длительностью до 120 секунд с частотой 30 кадров в секунду в разрешении 1080P и с произвольным соотношением сторон. По словам создателей, их модель ИИ лучше понимает законы физики и точнее моделирует сложные движения.

Интересный факт: для создания одноминутного ролика Sora использует восемь графических процессоров NVIDIA A100, работающих более трех часов. Один такой процессор стоит более 10 000 долларов. Так что Kling, вероятно, требуется в два раза больше вычислительных мощностей для генерации двухминутного видео.

Взгляните на этот пример:

Prompt: A Chinese man sitting at a table, eating noodles with chopsticks

Промпт: Китаец сидит за столом и ест лапшу палочками.

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Обратите внимание, насколько хорошо сохраняется плавность переходов между кадрами в этом видео.

Плавность переходов в видео, сгенерированных ИИ, означает способность модели создавать последовательность кадров, которые логически связаны и согласованы во времени.

То есть модель должна поддерживать целостность повествования, сохранять обстановку и следить, чтобы действия и движения объектов в кадре выглядели естественно и правдоподобно с течением времени.

Вы можете изучить сайт Kling и сильно удивиться. Также обратите внимание на GIF-анимации, которые я прикрепил ниже. Сейчас Kling доступен для тестирования в приложении Kmovie от Kuaishou.

Как Kling конкурирует с Sora?

Действия, влияющие на окружающий мир - одни из самых сложных для моделирования в генерации видео с помощью ИИ. Например, художник может оставлять на холсте мазки, которые сохраняются со временем, или человек может откусывать от бургера, оставляя следы.

И Sora, и Kling справляются с этим.

Давайте сравним их напрямую. Вот пример видео, где человек ест гамбургер:

Kling’s Prompt: A Chinese boy wearing glasses closes his eyes and enjoys a delicious cheeseburger in a fast food restaurant

Промпт Kling: Китайский мальчик в очках закрывает глаза и наслаждается вкусным чизбургером в ресторане быстрого питания.

Kling
Kling
Sora
Sora

Оба результата впечатляют. На первый взгляд их легко принять за настоящие видео. Но если приглядеться, видно, что в видео от Sora больше деталей и лучше освещение. Зато Kling может генерировать видео вдвое длиннее - до двух минут.

Примеры в студию!

Я заметил, что со вчерашнего дня сайт Kling начал подтормаживать, и некоторые пользователи жалуются, что не могут зайти из-за наплыва посетителей. Поэтому привожу еще несколько примеров:

Prompt: A giant panda playing guitar by the lake

Промпт: Гигантская панда играет на гитаре у озера.

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Prompt: An emperor angelfish with yellow and blue stripes swims in a rocky underwater habitat

Промпт: Императорская рыба-ангел с желто-голубыми полосами плавает среди подводных скал.

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Prompt: A man riding a horse in the Gobi Desert, with a beautiful sunset behind him, a movie-quality scene

Промпт: Человек скачет на лошади в пустыне Гоби, на фоне красивый закат. Сцена кинематографического качества.

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Как получить доступ?

Пока модель ИИ и приложение для генерации видео Kling недоступны для широкой публики. Сообщается, что доступ есть только у приглашенных бета-тестеров через приложение Kwaiyng.

Чтобы быть в курсе новостей о запуске Kling, следите за обновлениями на официальном сайте проекта (правда, он полностью на китайском языке).

Один пользователь Reddit утверждает, что Kling станет общедоступным либо в конце 2024 года, в ноябре-декабре, либо в 2025 году.

Сейчас это демо-версия, и чтобы ее опробовать, нужно быть в листе ожидания, как в случае с продуктами Google, OpenAI и других технологических гигантов. Судя по имеющимся данным, для всех желающих Kling откроется либо в конце 2024, либо в 2025 году. Вряд ли мы перешагнем 2025 год без модели, превосходящей демо-версию Sora, если только не случится какой-нибудь глобальный катаклизм вроде ядерной войны.

Помимо генератора видео по текстовому описанию, компания Kuaishou также представила любопытный инструмент для создания танцевального видео на основе одного статичного изображения человека.

Хотя на рынке уже существуют приложения с функцией генерации видео на базе ИИ, Kling выделяется на их фоне невероятно плавными переходами между кадрами, обеспечивая реализм совершенно нового уровня. Взаимодействие одежды с движениями человека в сгенерированных видео тоже выглядит очень естественно.

Прорыв в генерации видео: китайский ИИ Kling бросает вызов OpenAI и Google

Заключение

В целом, судя по представленным разработчиками примерам, Kling - весьма впечатляющая модель генерации видео на базе ИИ. Превосходит ли она Sora от OpenAI?

В некоторых аспектах - безусловно. Но с момента анонса Sora прошло уже несколько месяцев, и не исключено, что за это время она была значительно улучшена, просто OpenAI пока не объявила об этом публично.

Что касается сравнения с другими аналогичными продуктами, то Kling, на мой взгляд, однозначно опережает Veo от Google, а также решения от таких стартапов, как Pika Labs, RunwayML и StableVideo. Kling - это генератор видео на базе ИИ совершенно иного уровня.

Думаю, что еще пара итераций, и Kling сможет совершить настоящую революцию в индустрии видеоконтента. С каждым новым релизом грань между реальными и сгенерированными ИИ видео становится все более иллюзорной.

Теперь публика и эксперты индустрии с нетерпением ждут ответа от OpenAI - какие обновления и улучшения получит их модель Sora в свете выхода столь серьезного конкурента, как Kling.

Оставляйте свои мысли в комментариях!)

Подписывайтесь на мой Телеграм-канал. Здесь еще больше полезностей из мира нейросетей и маркетинга.

11
Начать дискуссию