Цена реализма: за что мы платим в голосовых ИИ-тренажёрах и без чего можно обойтись

Недавно я показывал пример диалогового тренажёра для сотрудников вымышленного банка.

В нём сотрудник не просто «кликает» в интерфейсе, а реально разговаривает с ИИ-клиентом голосом — тренируя и навыки общения, и работу в ПО.

Итоговая стоимость одного прохождения такого тренажёра — около 5 рублей.

Разберёмся, из чего складывается эта цифра и как её можно уменьшить.

Весь процесс общения выглядит просто: сотрудник говорит — ИИ отвечает.

Но под капотом работает сразу три модели искусственного интеллекта:

Голос сотрудника отправляется в модель, которая переводит речь в текст.
Без этого языковая модель просто не сможет понять, что сказал человек.

Текст запроса идёт в языковую модель (например, GPT-4.1), которая анализирует ситуацию и формирует ответ.

Текстовый ответ снова превращается в голос — и сотрудник слышит реакцию виртуального клиента.

За каждый этап мы платим отдельно.

Приведу цены в долларах (расчёт в рублях будет примерно по курсу 1 $ ≈ 100 ₽).
(цены на ИИ меняются чуть ли каждый день, если читаете этот пост спустя пару месяцев после выхода – лучше уточнить актуальные цены)

• Цена: $0,006 / минута (≈ 0,6 ₽)

• Можно удешевить процесс, используя упрощённую версию (например, gpt-4o-mini-transcribe) — она стоит примерно в два раза дешевле, хотя немного теряет в точности.

• Цена (по официальным тарифам OpenAI):

o Input — $2 / млн токенов
(ваши слова + технический промпт)

o Cache — $0,5 / млн
(память ИИ о вашем разговоре (ИИ каждый раз перечитывает ваш разговор с самого начала, чтобы дать релевантный ответ))

o Output — $8 / млн
(слова ИИ)

- 1 млн токенов — это примерно 400–500 тыс. слов, или около 1 200 страниц А4.

- Для коротких диалогов используется считанные сотни токенов, так что стоимость обработки одного запроса — доли цента.

• GPT-4.1-mini — примерно в 4–5 раз дешевле, при этом для простых сценариев (например, “обработать жалобу клиента”) качество более чем достаточно.

• DeepSeek V3.2-Exp — ещё более бюджетный вариант. По ощущениям, чуть проще в логике, но в части «понимания» человеческих эмоций местами даже лучше.

• Цена: $15 за 1 млн символов (не токенов!) или примерно $0,015 / минута.

• Качество неплохое.

• Рассмотреть альтернативы OpenAI.

У OpenAI не самое лучшее качество на рынке (хотя хорошее), не самые гибкие настройки и не самая бюджетная цена. Серьезной экономии не будет, но вот в качестве и гибкости можно выиграть.

• Озвучка браузером.

Самый дешевый способ – озвучивать текст средствами браузера. В любом браузере есть «говорилка», которая может озвучивать любой текст. Это бесплатно.

Из минусов такого подхода:

- качество озвучки будет ощутимо хуже, чем в современных моделях.

- в разных браузерах разные голоса и их настройки.

Вам придется писать больше кода (проверять каким браузером пользуется ученик и настраивать голос под каждый браузер). Если сотрудники проходят тренажеры с рабочих компьютеров и у всех один и тот же браузер – не большая проблема, а вот если используют свои смартфоны – придется разбираться, как работает вся эта история в браузерах Oppo, Techno и.т.д. и прописывать этот момент специально под них (либо не заморачиваться и смириться с тем фактом, что у кого-то мужчина будет разговаривать женским роботизированным голосом).

Цель не в том, чтобы выжать из моделей каждую копейку, а в том, чтобы осознанно выбирать, за что вы платите:

• Мощный TTS — это инвестиция в реализм.

• Мощная LLM вроде GPT-4 — это инвестиция в глубину сценария и качество обратной связи.

Найти баланс между бюджетом и педагогическим эффектом — вот основная задача.

Кстати, я веду свой канал в Телеграм про разработку курсов. Рассказываю о своем опыте и простых решениях сложных задач, в том числе про использование ИИ в e-learning. Присоединяйтесь.

Цена реализма: за что мы платим в голосовых ИИ-тренажёрах и без чего можно обойтись

Из чего состоит тренажёр

1. Распознавание речи (Speech-to-Text)

2. Обработка смысла (LLM)

3. Озвучка (Text-to-Speech)

Конкретика по деньгам

1. Распознавание речи — Whisper от OpenAI

2. Языковая модель — GPT-4.1

💡 Альтернатива:

3. Озвучка — OpenAI TTS

💡 Как можно экономить?

Главное не «дешево», а «осознанно»