Nvidia выпустила ИИ-модель PersonaPlex для голосовых ассистентов с «естественной» речью и заданными ролями

И выложила исходный код.

Демонстрация голосового помощника на базе PersonaPlex для клиник (женский голос). Источник: Nvidia
  • PersonaPlex-7B — полнодуплексная модель. Она «слушает и говорит одновременно», имитируя живую беседу. Например, может вставлять подтверждающие «ага» и «угу», быстро реагировать на прерывания и сохранять ритм разговора.
  • Чтобы этого добиться, Nvidia отказалась от каскадных систем, использующих отдельные модели для обработки аудио и генерации речи, объясняют разработчики.
  • Нейросети можно задать разные роли, например сотрудника службы поддержки или вымышленного игрового персонажа. Чтобы боты могли «эмоционально реагировать», PersonaPlex обучили на 1217 часах реальных диалогов на английском языке. В датасет также взяли более чем 100 тысяч синтетических разговоров в роли помощников и сотрудников поддержки.
  • У модели 7 млрд параметров. Код и веса выложили на GitHub и Hugging Face. Они распространяются под лицензиями MIT и Nvidia Open Model License.
9
15 комментариев