Бот для Telegram, который преобразовывает голосовые сообщения в текст
Голосовые сообщения это удобно, но как правило, только для отправителя. Ведь далеко не всегда эти сообщения удобно слушать. На работе, за рулем автомобиля, или же просто шумная обстановка вокруг.
Мне захотелось раз и навсегда решить эту проблему, и я написал бота для Telegram, который преобразовывает голосовые сообщения в текст.
Вы можете добавить его в любой чат, и все голосовые сообщения бот будет автоматически преобразовываться в текст:
Если нет желания добавлять бота в чат, то можете сохранить его в контактах, и по необходимости пересылать ему сообщения, а в ответ получать текстовые расшифровки:
А если среди ваших контактов нет любителей голосовых сообщений, то можете просто надиктовывать боту сообщения, и использовать их как “записную книжку”:
Добавить бота себе можно по ссылкам:
Если не получилось открыть по ссылке, то в приложении Telegram ищите в поиске по имени: @VoiceMsgBot
А мой https://t.me/voicybot поддерживает 3 движка распознавания речи на выбор, более 80 языков, распознает любые аудиофайлы и не имеет ограничения в 20мб по размеру файла для распознавания на https://voicybot.com. А, ну и пользуются и доверяют ему уже более 2 000 000 людей. Ну эт я так, для справки. А ещё у него код открыт: https://GitHub.com/backmeupplz/voicybot. Автор, можете воспользоваться ;)
А на базе чего распознаёт? Амазон, Яндекс? Дорого выходит? За распознавание голоса довольно кусачие тарифы на сколько помню:/
Wit бесплатный, Google Speech можно настроить и платить по $0.006 за 15 секунд, Nanosemantics ребята недавно написали и я их добавил — пока не просят денег :)
А у wit разве нет лимита 15-20 сек за одно обращение? Он умеет длинные аудио распознавать?
Войси автоматически бьёт на интервалы в 15-20 секунд :)
Я просто в доке нашёл только метод POST/speech и GET/speech которые принимают по 20 сек файлы:) Ещё есть Streaming audio, но как я понял сам он не умеет на куски резать и надо ему по 10 сек скармливать файлы, и подумал что такое не пойдёт:/ или там ещё как то можно?
Войси автоматически бьёт на интервалы в 15-20 секунд :)
А если обрежет на середине слова? Тогда ж криво распознает по идее, нет?
Лучшп, чем без распознавания вовсе :3
Там ещё есть Streaming audio, по идее он как раз позволяет избежать этих склеек, отправляя по 10 сек кусочки файла и в режиме реального времени возвращает текст, или это не так работает?🤔
Wit так не умеет.