{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

Бот для Telegram, который преобразовывает голосовые сообщения в текст

Голосовые сообщения это удобно, но как правило, только для отправителя. Ведь далеко не всегда эти сообщения удобно слушать. На работе, за рулем автомобиля, или же просто шумная обстановка вокруг.

Мне захотелось раз и навсегда решить эту проблему, и я написал бота для Telegram, который преобразовывает голосовые сообщения в текст.

Вы можете добавить его в любой чат, и все голосовые сообщения бот будет автоматически преобразовываться в текст:

Если нет желания добавлять бота в чат, то можете сохранить его в контактах, и по необходимости пересылать ему сообщения, а в ответ получать текстовые расшифровки:

А если среди ваших контактов нет любителей голосовых сообщений, то можете просто надиктовывать боту сообщения, и использовать их как “записную книжку”:

Добавить бота себе можно по ссылкам:

Если не получилось открыть по ссылке, то в приложении Telegram ищите в поиске по имени: @VoiceMsgBot

0
78 комментариев
Написать комментарий...
borodutch

А мой https://t.me/voicybot поддерживает 3 движка распознавания речи на выбор, более 80 языков, распознает любые аудиофайлы и не имеет ограничения в 20мб по размеру файла для распознавания на https://voicybot.com. А, ну и пользуются и доверяют ему уже более 2 000 000 людей. Ну эт я так, для справки. А ещё у него код открыт: https://GitHub.com/backmeupplz/voicybot. Автор, можете воспользоваться ;)

Ответить
Развернуть ветку
Дмитрий Клюев

А на базе чего распознаёт? Амазон, Яндекс? Дорого выходит? За распознавание голоса довольно кусачие тарифы на сколько помню:/

Ответить
Развернуть ветку
borodutch

Wit бесплатный, Google Speech можно настроить и платить по $0.006 за 15 секунд, Nanosemantics ребята недавно написали и я их добавил — пока не просят денег :)

Ответить
Развернуть ветку
Дмитрий Клюев

А у wit разве нет лимита 15-20 сек за одно обращение? Он умеет длинные аудио распознавать?

Ответить
Развернуть ветку
borodutch

Войси автоматически бьёт на интервалы в 15-20 секунд :)

Ответить
Развернуть ветку
Дмитрий Клюев

Я просто в доке нашёл только метод POST/speech и GET/speech которые принимают по 20 сек файлы:) Ещё есть Streaming audio, но как я понял сам он не умеет на куски резать и надо ему по 10 сек скармливать файлы, и подумал что такое не пойдёт:/ или там ещё как то можно?

Ответить
Развернуть ветку
borodutch

Войси автоматически бьёт на интервалы в 15-20 секунд :)

Ответить
Развернуть ветку
Дмитрий Клюев

А если обрежет на середине слова? Тогда ж криво распознает по идее, нет?

Ответить
Развернуть ветку
borodutch

Лучшп, чем без распознавания вовсе :3

Ответить
Развернуть ветку
Дмитрий Клюев

Там ещё есть Streaming audio, по идее он как раз позволяет избежать этих склеек, отправляя по 10 сек кусочки файла и в режиме реального времени возвращает текст, или это не так работает?🤔

Ответить
Развернуть ветку
borodutch

Wit так не умеет.

Ответить
Развернуть ветку
75 комментариев
Раскрывать всегда