Говорливый AI приближает всевидящих роботов

Когда создаются AI боты для звонков — на бумаге все гладко. Все демки выглядят волшебно. Но в реальной жизни разработчики сталкиваются с банальной проблемой — все эти боты звучат неестественно. Они легко сбиваются, когда юзер их перебивает, делают паузы, чтобы "переварить" речь юзера и наоборот невпопад начинают диалог после странных пауз. В общем звучит это все достаточно очевидно эй-айно.

Исправляют это костылями — в отдельном аудио канале запускают фоновый шум, добавляют паузы в скрипты боту, добавляют междометия типа "эээ", "гм" и тд. Все, чтобы срезать углы и добиться более естественного флоу диалога.

В 2024 году выкатили базовую модель Moshi на 7B параметров. Вот тут можно поговорить с ней, правда говорит она только на инглише. Такие модели называют "full duplex" — они одновременно могут и слушать и говорить, не теряя нить разговора. Собственно, как и человеки!

Дальше по этому пути потянулись и другие. Предположительно в голосовых GPT и Gemini используется нечто похожее — точную архитектуру они не раскрывают. Но на мой взгляд, все равно присутствует это кринжовая пауза. ChatGPT Voice обычно не перебивает и не "забирает микрофон" у юзера, хоть и отвечает с минимальной задержкой. Зашитое ли это правило "вежливости" или ограничение модели — неясно.

Буквально в ноябре 2025 Liquid выпустили свою базовую модель LFM 2 Audio-1.5B. Почему-то по метрикам она выше, чем Moshi. На практике попробуйте сами поболтать. У меня она жестко тупит. Но она опенсорсная — а кто мы такие, чтобы осуждать опенсорсные модели?! В каждом саду нужны разные цветы (кхм, или как там говорят).

И вот на днях Nvidia релизнула свою модельку, которая построена на основе Moshi — PersonaPlex 7B. Поговорить с ней негде. Надо разворачивать для этого. Но можно посмотреть и послушать демки от разработчиков. Ключевое преимущество перед самой Moshi — это жесткое следование "роли". При этом есть вариабельность и самих голосов. И самое приятное — это опенсорс. Поэтому можно забирать ее на HuggingFace и использовать в своем проекте. С точки зрения флоу диалога — звучит она, пожалуй, наиболее естественно из всех имеющихся на рынке (если не обвешивать их свистульками, как я описывал выше, а сравнивать сырые модели). Перебивает, "активно слушает", отбирает реплику у юзера, как это делал бы человек. И при этом отыгрывает свою роль.

Куда это все движется?

Задался я вопросом. И ответил себе: очевидно, сначала к неотличимым от реальных людей AI-собеседникам. Модельки будут не просто звучать естественно, они будут поддерживать естественную для человека динамику разговора.

Дальше интереснее. Параллельно этому будут развиваться мультимодальные модельки, которые генерят и воспринимают видео+аудио по такому же принципу "full duplex". Активный рисерч в этом направлении уже идет. Тогда у вас в зуме будет не просто бот, который замолкает от каждого вашего звука, а полноценный собеседник, который по ощущениям будет иногда "пушить" вам свою реплику, а еще будет одновременно следить за вашими эмоциями на лице, за вашим окружением и моментально на это реагировать. Представьте, вы что-то говорите, к вам в кадр запрыгивает ваш кот — и ИИ собеседник, видя это, перебивает вас и говорит "оуууу, какой пушистик!". Точно, как сделал бы ваш друг.

Тут же можно прикинуть, что будет дальше. А дальше это все дополниться аналогичными моделями для данных с сенсоров и загрузится на роботов.

Так сейчас неуклюжие роботы, в будущем получат инструменты для взаимодействия с миром скорее всего лучше, чем у человека, т.к. не будут ограничены "вниманием", как человек. Мозг человека, как вы знаете, намеренно не обрабатывает большую часть информации, поступающей через органы восприятия, чтобы не перегреть котелок. А у робота такого ограничения не будет. Всеобъемлющее восприятие + моментальный учет всего и реакция на опережение.

На практике: робот который все видит, слышит, чувствует, знает и предсказывает ваши движения, желания и намерения.

Во, как меня занесло с простого релиза модельки Nvidia 😁

Подписывайтесь на Telegram Заместители.

Начать дискуссию