Сгенерирует ваш голос за 15 секунд: новая нейросеть от OpenAI
Создатели СhatGPT, компания OpenAI, поделилась новой разработкой: Voice Engine — нейросетью, воспроизводящей голос конкретного человека. Для генерации ИИ достаточно 15 секундной записи речи. Рассказываем, собираются ли выпускать продукт в массы, какая польза от Voice Engine и как OpenAI планируют защитить людей от мошенничества, связанного с генерацией голоса.
Привет! Мы — Digex Co. Создаем современные технологичные IT-продукты под ключ.
Что такое Voice Engine
Voice Engine — это еще один искусственный интеллект от OpenAI: разработчика самого популярного ИИ ChatGPT. По сути Voice Engine — это модель, генерирующая определенный голос.
Алгоритм работы простой: загружается 15-секундный файл с речью человека, далее вводится текст, и нейросеть его озвучивает. При этом голос получается живой, эмоционально окрашенный, как настоящий. Понять, чей голос вы слышите: ИИ или реального человека, практически невозможно.
Работа над Voice Engine ведется с 2022 года. Впервые нейросеть использовали для синтеза голосовых ответов СhatGPT. Сейчас проект развивается, но не развертывается на широкую аудиторию из-за соображений безопасности. Доступ к нейросети имеет ограниченное число людей и компаний.
Примеры использования Voice Engine
По мнению OpenAI, у Voice Engine большое будущее и множество сфер применения.Тестирование возможностей нейросети ведется с 2023 года малыми группами в разных сферах. Вот где может быть полезна генерация голоса:
Озвучка книг и текстов для детей и людей, которые не умеют читать. Эмоционально окрашенная синтезированная речь помогает больше погрузиться в материал.
Моментальный аудио перевод видео, фильмов, сериалов и подкастов. При этом будет сохранен голос и эмоциональная окраска говорящего. Например, мы могли бы смотреть Оппенгеймера на русском языке с голосом Киллиана Мерфи.
Уменьшение времени и затрат на создание голосовых помощников. Голосовые помощники уже никого не удивляют. Многие знают про Алису от Яндекса или Марусю от VK. У этих нейросетей есть собственный встроенный синтез речи, но для него требуется несколько часов записи голоса. С эмоциями тоже есть некоторые сложности: голоса ИИ имеют определенную окраску, но все еще далеки от настоящих.
Создание видео с искусственными аватарами. Аватар — вымышленный персонаж, отрисованный нейросетью. Voice Engine в данном случае используется для озвучивание таких видео. Аватары чаще всего используются компаниями в маркетинговых целях или для презентации своего продукта.
Помощь людям с нарушением речи. Voice Engine может быть использован для создания уникального, живого, эмоционально окрашенного голоса.
Так ли безопасен Voice Engine?
Нейросеть небезопасна. OpenAI это признает и именно по этой причине не масштабирует проект. Разработка ведется в тесном взаимодействии с правительством США и других стран.
Была создана специальная политика безопасности, применимая ко всем продуктам OpenAI. Согласно документу, нельзя пользоваться сервисами для мошенничества, причинения вреда, компрометации. Запрещено генерировать голос, изображение, видео с человеком без его согласия. Весь контент, созданный нейросетями, помечается водянными знаками, чтобы можно было отследить и отличить искусственно созданный материал.
В теории, если откроют общий доступ к Voice Engine, компании будут придерживаться этих правил безопасности. А вот остановит ли этот свод правил людей и мошенников, вопрос скорее риторический. Чем может быть опасна генерация голоса:
Взлом личных аккаунтов. Текстовым сообщениям со взломанного аккаунта с просьбой перевести деньги уже мало кто верит. А вот к голосовым от близкого человека будет уже намного больше доверия.
Публичные аккаунты с дипфейками. Уже сейчас существуют тысячи аккаунтов со сгенерированными фото и видео несуществующих людей. С Voice Engine у этих аккаунтов появится еще и голос.
Новые схемы мошенничества. Создавать фейковые страницы девушек и общаться от их имени станет еще легче. А тут уже возможно несколько вариантов обмана.
А как вы считайте, возможность моментальной генерации любого голоса — это новые возможности или потенциальная угроза для всех? Пишите в комментариях.