Запрещенная в РФ Meta разрабатывает систему ИИ - MoCha, которая превращает текст в анимированных персонажей

Исследователи Meta и Университета Ватерлоо создали MoCha — систему искусственного интеллекта, которая генерирует полноценную анимацию персонажей с синхронизированной речью и естественными движениями.

В отличие от предыдущих моделей, которые фокусировались только на лицах, MoCha может отображать движения всего тела с разных ракурсов камеры, включая синхронизацию губ, жесты и взаимодействие между несколькими персонажами. Ранние демонстрации фокусируются на крупных и полукрупных планах, где система генерирует движения верхней части тела и жесты, которые соответствуют разговорному диалогу.

MoCha работает на основе модели диффузионного трансформатора с 30 миллиардами параметров. Он создает HD-видеоклипы длиной около пяти секунд при 24 кадрах в секунду, что ставит его в один ряд с текущими моделями видеогенерации.

Система представляет механизм «Внимание к окну речи и видео» для решения двух постоянных проблем при генерации видео с помощью ИИ: сжатие видео во время обработки, когда звук остается в полном разрешении, и несоответствующие движения губ во время параллельной генерации видео.

Система достигает этого, ограничивая доступ каждого кадра к определенному окну аудиоданных. Этот подход отражает то, как работает человеческая речь — движения губ зависят от непосредственных звуков, в то время как язык тела следует более широким закономерностям в тексте. Добавление токенов до и после аудио каждого кадра помогает создавать более плавные переходы и более точную синхронизацию губ.

Исследователи построили систему, используя 300 часов тщательно отфильтрованного видеоконтента, хотя они не раскрыли исходный материал. Они дополнили его текстовыми видеопоследовательностями, чтобы расширить диапазон возможных выражений и взаимодействий.

Для сцен с несколькими персонажами команда разработала оптимизированную систему подсказок. Пользователи могут определить персонажей один раз и ссылаться на них с помощью простых тегов, таких как «Person1» или «Person2» в разных сценах, устраняя необходимость в повторных описаниях.

В тестах по 150 различным сценариям MoCha превзошла аналогичные системы как по синхронизации губ, так и по качеству естественного движения. Независимые оценщики оценили сгенерированные видео как реалистичные.

По словам исследовательской группы, MoCha подает надежды на приложения, начиная от цифровых помощников и виртуальных аватаров до рекламы и образовательного контента. Meta не раскрыла, станет ли система с открытым исходным кодом или останется исследовательским прототипом.

Время разработки MoCha примечательно, поскольку крупные компании социальных сетей спешат продвигать видеотехнологии на основе ИИ. Meta недавно запустила MovieGen , в то время как материнская компания TikTok ByteDance разрабатывает собственный набор систем анимации ИИ, включая INFP , OmniHuman-1 и Goku .

Краткое содержание

Искусственный интеллект MoCha от Meta и Университета Ватерлоо создает реалистичные видеоролики из текста и речи с синхронизированными движениями губ и анимацией всего тела.
Он использует функцию «Внимание к окну речи и видео» для точной синхронизации губ и может отображать нескольких персонажей, управляемых подсказками.
MoCha превзошла другие системы по качеству синхронизации губ и движений в тестах, но дата ее выпуска пока неизвестна.

Ну и как положено, канал тг))) Канал и чатик

Там под сообщениями и в закрепленном боты KolerskyAi для генерации видео, а так же для доступа в Chat GPT+4 и Dalle-3 без VPN и другие нейросети.

Запрещенная в РФ Meta разрабатывает систему ИИ - MoCha, которая превращает текст в анимированных персонажей

Повышение точности синхронизации губ

Управление несколькими персонажами