Разговоры с голосовым AI — Байрам Аннаков на vc.ru

На этой неделе много говорил с фаундерами компаний, которые делают голосовых ассистентов для разных задач + сам все больше обстукиваю об chatgpt идеи и мысли, поэтому решил поделиться наблюдениями:

1) Длинные разговоры - судя по всему, это не так просто реализовать. Тот же chatGPT теряет контекст или, наоборот, после 5-7 мин разговора начинает в ответах на 80% повторять все, что до этого говорил. Тут я подумал, что в этом ограничение архитектуры мультимодальных LLM по сравнению с архитектурой "голос в текст —> текст в текст с помощью LLM —> текст в голос", потому что в последней можно делать пост-обрботку: "отрезать" ненужную часть и подавать на озвучку только важное. Это важно и в пункте 3 ниже

2) Данные для тренировки - многие лабы тренировали свои модели на аудио-книгах, но проблема в том, что эти записи сильно отличаются от реальных разговоров с точки зрения интонации, и "чистоты" языка. Кстати, поэтому многие лабы не дешевых тарифах не дают возможности отказаться от тренировки на ваших данных.

3) Общий контекст - когда 2 профи или давних друга разговаривают о чем-то, то у них очень существенный общий контекст, и поэтому некоторые ненужные слова не говорятся, а подразумеваются. Очевидно, что надо делать пос-обработку. Также люди все чаще, заподозрив AI с другой стороны, просят человека. Я думаю, в некоторых контекстах это придется делать, но в некоторых - возможность для монетизации (хочешь поговорить с человеком - плати).

Я бы порекомендовал каждому, хотя бы раз в неделю, уходить в длинный разговор с любимым AI ассистентом в режиме голоса - мало того, что голос быстрее текста, или в некоторых контекстах невозможно быть с экраном (за рулем), но и начинаешь лучше понимать ограничения и челленджи, стоящие перед разработкой оных.

Подписывайтесь на Telegram-канал EDU.