Помощник, который отвечает быстрее человека: как голосовой ИИ перестал раздражать клиентов

Помощник, который отвечает быстрее человека: как голосовой ИИ перестал раздражать клиентов

Когда человеку звонит компания и после «Алло» тянется пауза в 2–3 секунды — он внутренне закрывается. Я убрал эту паузу. Локальный голосовой помощник отвечает примерно за полсекунды (250–640 мс), говорит человеческим тоном, не спорит и не «фантазирует». И самое важное — говорит ровно то, что вы утвердили.
Лучший вариант для наглядного понимания того…

1

Хотите жить в ИИ эмуляторе? Постройте дом и установите систему умного дома. Синхронизируйте всю систему со своими действиями и речью озвучивая её любыми голосами

Отличная идея для поста! Она сочетает в себе технологический тренд, философский подтекст и практическое руководство. Вот вариант поста, который можно использовать для блога или социальной сети.


---


### Хотите собственный ИИ-эмулятор? Он ближе, чем вы думаете.


Мы часто представляем себе ИИ-эмулятор как нечто из далекого будущего: цифровую копию сознани…

Как мы запустили первый IT продукт, который не работал. А сейчас им пользуются 30 000+ человек

Привет! Меня зовут Ксения Бахметьева. Год назад я запустила свой первый IT-продукт. В этом году я продолжаю запускать новые продукты. В январе 2025 я вышла из найма с ощущением, что пора полностью сфокусироваться и строить что-то своё.

Это моя первая история про мой первый запуск. Я делюсь ей не как эксперт, а просто как человек, который реши…

12

Gemini научился говорить (по-русски и с душой!): Убьет ли бесплатный TTS от Google платные аналоги?

Игорь Телегин на связи! Google выкатила Gemini Speech Generation – и, честно говоря, это просто бомба! Нейронка не только круто генерит речь (особенно на русском!), но и позволяет создавать диалоги, добавлять эмоции, и все это с приличным контекстным окном в 32 000 токенов. А главное – пока это бесплатно в AI Studio!

Gemini научился говорить (по-русски и с душой!): Убьет ли бесплатный TTS от Google платные аналоги?
3
1

Забудьте о роботах! TTS заговорил как человек! 🗣️

Dia 1.6B — открытая модель, созданная двумя студентами, способная выражать эмоции: смеяться, кричать и многое другое! 😲 И все это — БЕСПЛАТНО!

Три бесплатных портативных нейросети для работы со звуком | MM-Audio, Fish Speech, LatentSync

🎵 Друзья, вы готовы к настоящей революции в мире аудио? В этом видео я покажу вам три невероятные нейросети, которые перевернут ваше представление о работе со звуком! MM-Audio создаст потрясающие звуковые эффекты для ваших видео и игр всего за пару кликов, Fish Speech поразит вас качеством клонирования голоса по минутному образцу, а LatentSync иде…

3

Разметка данных: неочевидные затраты на голосовые технологии

В голосовых технологиях используется глубокое обучение (особый вид машинного обучения), позволяющее обучать Speech-to-Text (STT) — компонент обработки голоса, получающий от пользователя в аудиоформате входные данные (например, речь) и преобразующий этот фрагмент в текст. [Ссылка] В этом отношении большинство обучающих модели STT компаний полностью…

Разметка данных: неочевидные затраты на голосовые технологии