Цена реализма: за что мы платим в голосовых ИИ-тренажёрах и без чего можно обойтись
Недавно я показывал пример диалогового тренажёра для сотрудников вымышленного банка.
В нём сотрудник не просто «кликает» в интерфейсе, а реально разговаривает с ИИ-клиентом голосом — тренируя и навыки общения, и работу в ПО.
Итоговая стоимость одного прохождения такого тренажёра — около 5 рублей.
Разберёмся, из чего складывается эта цифра и как её можно уменьшить.
Из чего состоит тренажёр
Весь процесс общения выглядит просто: сотрудник говорит — ИИ отвечает.
Но под капотом работает сразу три модели искусственного интеллекта:
1. Распознавание речи (Speech-to-Text)
Голос сотрудника отправляется в модель, которая переводит речь в текст.
Без этого языковая модель просто не сможет понять, что сказал человек.
2. Обработка смысла (LLM)
Текст запроса идёт в языковую модель (например, GPT-4.1), которая анализирует ситуацию и формирует ответ.
3. Озвучка (Text-to-Speech)
Текстовый ответ снова превращается в голос — и сотрудник слышит реакцию виртуального клиента.
За каждый этап мы платим отдельно.
Конкретика по деньгам
Приведу цены в долларах (расчёт в рублях будет примерно по курсу 1 $ ≈ 100 ₽).
(цены на ИИ меняются чуть ли каждый день, если читаете этот пост спустя пару месяцев после выхода – лучше уточнить актуальные цены)
1. Распознавание речи — Whisper от OpenAI
• Цена: $0,006 / минута (≈ 0,6 ₽)
• Можно удешевить процесс, используя упрощённую версию (например, gpt-4o-mini-transcribe) — она стоит примерно в два раза дешевле, хотя немного теряет в точности.
2. Языковая модель — GPT-4.1
• Цена (по официальным тарифам OpenAI):
o Input — $2 / млн токенов
(ваши слова + технический промпт)
o Cache — $0,5 / млн
(память ИИ о вашем разговоре (ИИ каждый раз перечитывает ваш разговор с самого начала, чтобы дать релевантный ответ))
o Output — $8 / млн
(слова ИИ)
- 1 млн токенов — это примерно 400–500 тыс. слов, или около 1 200 страниц А4.
- Для коротких диалогов используется считанные сотни токенов, так что стоимость обработки одного запроса — доли цента.
💡 Альтернатива:
• GPT-4.1-mini — примерно в 4–5 раз дешевле, при этом для простых сценариев (например, “обработать жалобу клиента”) качество более чем достаточно.
• DeepSeek V3.2-Exp — ещё более бюджетный вариант. По ощущениям, чуть проще в логике, но в части «понимания» человеческих эмоций местами даже лучше.
3. Озвучка — OpenAI TTS
• Цена: $15 за 1 млн символов (не токенов!) или примерно $0,015 / минута.
• Качество неплохое.
💡 Как можно экономить?
• Рассмотреть альтернативы OpenAI.
У OpenAI не самое лучшее качество на рынке (хотя хорошее), не самые гибкие настройки и не самая бюджетная цена. Серьезной экономии не будет, но вот в качестве и гибкости можно выиграть.
• Озвучка браузером.
Самый дешевый способ – озвучивать текст средствами браузера. В любом браузере есть «говорилка», которая может озвучивать любой текст. Это бесплатно.
Из минусов такого подхода:
- качество озвучки будет ощутимо хуже, чем в современных моделях.
- в разных браузерах разные голоса и их настройки.
Вам придется писать больше кода (проверять каким браузером пользуется ученик и настраивать голос под каждый браузер). Если сотрудники проходят тренажеры с рабочих компьютеров и у всех один и тот же браузер – не большая проблема, а вот если используют свои смартфоны – придется разбираться, как работает вся эта история в браузерах Oppo, Techno и.т.д. и прописывать этот момент специально под них (либо не заморачиваться и смириться с тем фактом, что у кого-то мужчина будет разговаривать женским роботизированным голосом).
Главное не «дешево», а «осознанно»
Цель не в том, чтобы выжать из моделей каждую копейку, а в том, чтобы осознанно выбирать, за что вы платите:
• Мощный TTS — это инвестиция в реализм.
• Мощная LLM вроде GPT-4 — это инвестиция в глубину сценария и качество обратной связи.
Найти баланс между бюджетом и педагогическим эффектом — вот основная задача.
Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач, в том числе про использование ИИ в e-learning. Присоединяйтесь.