Mail.ru Group представила бесплатный сервис для создания виртуальных ведущих на основе ИИ Статьи редакции
Инструмент позволит компаниям, медиа и блогерам быстро выпускать сюжеты студийного качества, говорят в компании.
Сервис «Смотри Mail.ru» разработал платформу с цифровыми ведущими для производства новостей и репортажей в телевизионном формате, сообщили vc.ru в компании.
Чтобы сделать новостной видеоролик, нужно загрузить текст (его прочитает ведущий) и, если необходимо, изображения, музыку, титры и ссылки. Пользователь может выбрать внешность диктора из предложенных вариантов и оформление студии (например, в цветах компании).
Речь и мимика ведущих реалистичны, утверждают в компании. Например, читая новости, они расставляют смысловые акценты и воспроизводят эмоции. Сервис бесплатный для пользователей.
При создании платформы группа использовала собственные ИИ-разработки: над синтезом речи работала команда голосового помощника «Маруся», а в основе моделей ведущих лежит система компьютерного зрения группы Vision. Видеоизображение синхронизируется с речью ведущего — чтобы точно отображать движение губ и мимику, система обучалась на реальных людях и видеозаписях.
Mail.ru Group рассчитывает, что платформой будут пользоваться крупные компании, нишевые медиа и блогеры. Использование видеоредактора позволит им быстро выпускать сюжеты и экономить на производстве контента.
Видео от профессиональных медиаплощадок смогут попасть в рекомендательную систему сервиса «Смотри Mail.ru», что позволит пользователям заработать на видео, отмечают в компании. По прогнозам группы, к 2022 году 79% интернет-трафика в России будут составлять онлайн-видео.
Похожий сервис есть у «Сбербанка»: в апреле 2019 года компания представила виртуальную телеведущую с ИИ «Елена». Система позволяет создать ролик с новостным сюжетом, она генерирует речь и мимику.
попробовал создать видео - написал короткий текст. Оно генерировалось под 40 минут, в итоге - девушка на видео (она снята на видео, не 3д модель) читает какой-то рандомный текст, который совсем не совпадает со звуком. Сам же текст, произносится примерно как гугл-переводчиком.
Короче, это стоковое видео с девушкой, которая что-то говорит, шевелит губами, но разобрать невозможно, при этом с текстом движения не совпадают, и на это видео наложен звук машинного голоса, читающего ваш текст.
Ну хз.
В качестве прототипов ведущих были взяты реальные люди, а вот их речь и мимика генерируются с помощью нейронных сетей.
Мимика - ладно, но речь просто ужасна. Знаки препинания и пробелы расставлены, а некоторые слова всё равно почти слитно читает.
И всё это - при ужаснейшей скорости работы.
Впрочем, не шибко удивлён качеству: техподдержка, отвечающая от месяца и более; почта с тормозящим интерфейсом без выбора облегчённой версии; целые проекты, закрывающиеся из-за одного диванного взломщика - список можно продолжать бесконечно.
З.Ы.: титры бегущей строкой когда завезёте, чтоб не нужно было вставлять в видео десяток статичных сменяемых кусочков текста?