{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Cloud4Y

22 сен 2022 22.09.2022

Видеопрезентация от ИИ

Компания D-ID научила ИИ создавать видеоролики из фото и текста.

Приходилось ли вам иногда надевать парадную футболку и бриться, чтобы выступить спикером на вебинаре? В крупных компаниях это распространённая практика. По понятным причинам не все этому рады, а для кого-то выступить публично — вообще что-то за гранью добра и зла. Кажется, теперь можно выдохнуть!

Создатели проекта Deep Nostalgia (вы наверняка о нём слышали, ИИ оживляло ретро-снимки), израильская компания D-ID, запускает новую платформу.

Пользоваться платформой очень просто. Сначала нужно загрузить фото докладчика или выбрать портрет из встроенной галереи. Те, кто купил платную подписку, получают доступ к альбому с премиум докладчиками, у которых лучше выражены лица и движения рук, чем у базовых, то есть и видео получится более реалистичным.

После этого нужно ввести текст или просто загрузить аудиозапись чьей-то речи. Затем можно выбрать язык (платформа поддерживает 119 языков), голос и стиль речи (веселый, грустный, взволнованный и дружелюбный). Алгоритмы на основе искусственного интеллекта будут генерировать видео на основе этих параметров. Готовую запись пользователи могут свободно распространять где угодно.

Компания утверждает, что для создания видео алгоритму требуется только половина времени от общей его продолжительности. Но на практике процесс тянется дольше. Вероятно это зависит от выбранного докладчика и языка.

Технология выглядит очень перспективной. Особенно сейчас, когда потребность в дистанционном обучающем контенте выросла из-за пандемии и прочих событий. На найм актёров озвучки у компаний уходит немало средств. А в тех организациях, где для обучения используются свои специалисты, – уходят нервные клетки этих специалистов. Ведущий, созданный ИИ, выглядит так же привлекательно, как живой спикер. Кроме того, появляется возможность создавать видео на иностранный рынок, даже если в компании нет сотрудников, говорящих на других языках.

Во избежание создания оскорбительных дипфейков, компания установила фильтры на ругательства, расистские и сексуальные высказывания. Для этого используется API модерация текста Microsoft Azure. Кроме того, там стоит запрет на использование изображений известных людей. D-ID заявила, что условия использования платформы запрещают пользователям создавать политические видеоролики. В случае нарушения любого из этих правил, компания может приостановить действие учетной записи нарушителя и удалить его видео из библиотеки.

Сейчас пользователям доступны три тарифа: бесплатный триал, PRO и Enterprise. Пробная версия даётся на 14 дней и позволяет создать до пяти минут видео с разрешением 720p. На видео ставятся вотермарки, закрывающие всё изображение. Pro версия стоит 49 долларов в месяц и открывает доступ к 15-минутному видео в формате Full HD, а также плагину PowerPoint и поддержке по электронной почте.

Соучредители D-ID

В рамках платного тарифа пользователи могут загружать свои аудиозаписи для клонирования голоса. Также компания работает над инструментом, позволяющим добавлять свои кадры для обучения ИИ. Это позволит ему быть более выразительным и лучше имитировать человека на видео.

Мы тоже попробовали создать свой ролик, используя фотографию нашего технического писателя и статью с англоязычной версии сайта (для русского языка маловато вариантов голосов и озвучка ниже качеством). Смотрите, что получилось:

16 показов

1.2K открытий

18 комментариев

Написать комментарий...

INDEX

22.09.2022

А ещё круче было бы, если бы слайды для презентации тоже делались ИИ)

Ответить

Развернуть ветку

Олег Павлов

22.09.2022

Да и вообще вся операционка по бизнесу, а ты с кофейком сидишь)

Ответить

Развернуть ветку

Рустам Кагарманов

22.09.2022

безработный)

Ответить

Развернуть ветку

Олег Павлов

22.09.2022

Беззаботный!)

Ответить

Развернуть ветку

Гавриил Злобин

22.09.2022

это идеальное развитие событий)

Ответить

Развернуть ветку

Ксения Хохлова

22.09.2022

тогда и люди не особо нужны будут

Ответить

Развернуть ветку

Иван Бирюк

22.09.2022

и вообще всю работу,которую делать я не хочу делал ИИ

Ответить

Развернуть ветку

INDEX

22.09.2022

Вообще всю работу)

Ответить

Развернуть ветку

Sasha Step

22.09.2022

А оплатить то сервис гражданам самой лучшей страны то можно? Или как обычно, впн, экстремизм, мобилизация?

Ответить

Развернуть ветку

Аккаунт удален

22.09.2022

Комментарий недоступен

Ответить

Развернуть ветку

Abdul Оkuev

22.09.2022

Говорит о наболевшем

Ответить

Развернуть ветку

Аккаунт удален

22.09.2022

Комментарий недоступен

Ответить

Развернуть ветку

Rax034

22.09.2022

Хорошо бы они научились наконец нормально речь синтезировать, хотя бы на англицком. А то пока картинка уже вытянута и сильно в глаза не бросается, но этот голос гугл-переводчика - это просто дичь.

Ответить

Развернуть ветку

Рустам Кагарманов

22.09.2022

Алиса в помощь)

Ответить

Развернуть ветку

Rax034

22.09.2022

Не вижу в заголовке новости про Алису или про Яндекс. Это во-первых.
во вторых Алисе до человеческого синтеза голоса, как вам до понимания контекста.

Ответить

Развернуть ветку

Гавриил Злобин

22.09.2022

чего только не придумают, я в шоке)

Ответить

Развернуть ветку

Igor Mylnikov

22.09.2022

Прикольно!

Ответить

Развернуть ветку

Семён Маслов

22.09.2022

А это неплохо, неплохо

Ответить

Развернуть ветку

Написать комментарий...

15 комментариев

Раскрывать всегда