Nvidia показала нейросеть для «исправления» лица человека в видеозвонке Статьи редакции
Maxine будет обрабатывать звонки в облаке с помощью графических процессоров Nvidia.
Nvidia представила платформу Nvidia Maxine для разработки сервисов видеосвязи на базе искусственного интеллекта и с GPU-ускорением для улучшения потокового видео. Maxine будет обрабатывать звонки в облаке с помощью графических процессоров Nvidia и повышать качество звонков, говорят в компании.
Компания утверждает, что платформа поможет исправить некоторые из наиболее распространённых проблем при видеозвонках. В частности, Nvidia Maxine позволяет снизить требования к пропускной способности «до одной десятой от требований стандарта сжатия потокового видео H.264» — инструмент передаёт только «ключевые точки лица», а ИИ восстанавливает изображение в видео на другой стороне. Снижение требований позволит снизить расходы провайдеров на инфраструктуру, отметили в компании.
Кроме того, с помощью ИИ платформа может выравнивать лица и глаза звонящих так, чтобы они всегда были обращены в камеру, повысить разрешение видео и подавить фоновый шум. Также платформа может в реальном времени показывать субтитры и перевод речи.
Разработчики также смогут добавлять в свои сервисы функции, позволяющие пользователям заменить себя на анимированных аватаров — они будут в реальном времени повторять голос и тон участников видеозвонка.
Автоматическое кадрирование позволит показывать говорящего, даже если он отходит от экрана. Кроме того, используя диалогового ИИ на базе NVIDIA Jarvis SDK, разработчики смогут интегрировать виртуальных помощников с распознаванием и генерацией речи. Виртуальные ассистенты могут делать заметки, различные действия и отвечать на вопросы человеческим голосом.
Как отмечает издание, некоторые из этих функций есть и у других компаний. Сжатие видео и субтитры в реальном времени достаточно распространены, а Microsoft и Apple добавили выравнивание взгляда в Surface Pro X и FaceTime, пишет The Verge. Nvidia уже объявила о партнёрстве с первым клиентом — коммуникационной компанией Avaya.
Pied Piper
Ждём когда нвидия сольёт сама себя, а Хуанг станет преподавателем в Рязанском техническом училище?
Жду опцию полной замены меня на ненужных конф-коллах, чтобы только если по имени обращаются пинг приходил :)
Так зачем пинг? нейронка на паре RTX5090 уже полностью тебя заменит, а то ляпнешь ещё там что-нибудь невпопад, кожаный мешок.
https://youtu.be/b-VCzLiyFxc
Так зацикли видео просто и все.
Зацикленное видео не так реалистично, плюс есть возможность пропустить прямое обращение :)
Комментарий недоступен
Я тоже охерел
Последний мужик реально криповый. Исправьте плес:
Я думаю российские реалии ближе к исправлению лица человека
Вы про «поправить е*ало»?))
Комментарий недоступен
Если инвертировать шутку, будет актуальней
Комментарий недоступен
Вангую следующая нейросеть будет подрисовывать недостающие кадры в очках при обрыве соединения с коптером
То самое чувство, когда фраза "Лицо попроще" выходит на новый уровень
лицо в камеру, говорите
Думаю, МИД "Глаза-то не отводи!" должен закупить такую систему.
https://www.youtube.com/watch?v=I-a3DcZHq8o