Удобный Telegram-бот для распознавания речи в голосовых и видео сообщениях

Telegram-бот на основе ИИ Voix переводит аудио в текст и может выполнять расшифровку голосовых сообщений до 15 минут. Благодаря мощной нейросети конвертация аудио и видео в текст происходит моментально.

Расшифровка голосовых сообщений в Telegram нейросетью<br />
Расшифровка голосовых сообщений в Telegram нейросетью

Voix — бесплатный Telegram-бот на основе ИИ для распознавания речи в голосовых и видео сообщениях и быстрого перевода ее в текст. В настоящее время бот распознает только русский язык. Текстовая расшифровка происходит при помощи Python-библиотеки SpeechRecognition, использующей современные нейросети. Принимаются голосовые и видео сообщения, а также видео в формате MP4. При последнем обновлении бота добавлена также расшифровка аудио в различных форматах.

Для транскрибации, то есть перевода аудио или видео в текстовую форму, необходимо: открыть Voix в Telegram, нажать "Старт" для начала работы, переслать боту голосовое или видео сообщение, после чего начнется распознавание речи. Текстовая расшифровка направляется пользователю сразу же после распознавания нейросетью. Регистрироваться где-либо, подписываться или выбирать что-либо для использования бота не нужно.

Все файлы, направляемые боту, автоматически удаляются сразу же после распознавания речи. Удаление происходит даже в случае непредвиденных ошибок (которые иногда возникают в работе серверов Telegram), так что никакие файлы пользователя на стороне бота не хранятся. Распознанный текст направляется пользователю и также нигде не хранится. Шифрование обеспечивается серверами Telegram, через которые осуществляется доступ к Telegram API. Следует отметить, что в Telegram Bot API не используется сквозное шифрование, как и в личных чатах по умолчанию.

Telegram-бот Voix может распознавать голосовые сообщения и аудио в различных форматах длительностью до 15 минут, видео — до 6 минут и размером не более 20 Мб. Для удобства прочтения более длинные голосовые сообщения разбиваются на части, которые направляются пользователю поочередно по мере их распознавания нейросетью.

Время перевода аудио в текст зависит от длительности голосового сообщения. Среднее время ответа на сообщения до 30 секунд — 3 секунды, до 3 минут — 12 секунд. Но даже при длительных голосовых сообщениях транскрибация первых минут происходит моментально, и пользователь сразу же может приступить к прочтению, не дожидаясь полной расшифровки.

Изначально Voix как мини-проект предназначался только для голосовых сообщений в приватных чатах Телеграм. Теперь возможна текстовая расшифровка голосовых сообщений и в групповых чатах. Добавить бота в группу можно через стартовую страницу, которая открывается при нажатии на логотип Voix. Добавив бота в качестве участника группы, все голосовые сообщения будут автоматически переводиться в текст.

Voix написан на языке программирования Python без использования каких-либо конструкторов Telegram-ботов. Запросы от пользователей принимаются в режиме многопоточности (то есть их обработка происходит в независимых потоках), а современная нейросеть выполняет расшифровку моментально.

В заключение хочется сказать, что скорость и простота, а также возможность расшифровки различных типов аудио и видео являются главными преимуществами Telegram-бота Voix. Если заинтересовало — you're welcome!

1010
32 комментария

Теперь можно добавить бота в чат для расшифровки аудио. Добавив бота в качестве участника группы, голосовые сообщения будут автоматически переводиться в текст.

1
Ответить

Не хватает разбивки по голосам в диалогах. Когда реплики разных людей сливаются в единый текст, становится трудно читать.

3
Ответить

Ценное замечание! Можно попробовать осуществить такую разбивку...

1
Ответить

Отличный бот!

3
Ответить

Спасибо

Ответить