Удобный Telegram-бот для распознавания речи в голосовых и видео сообщениях

Telegram-бот на основе ИИ Voix делает расшифровку голосовых сообщений и кружков, а также переводит длинные аудио и видео до 3 часов в текстовый файл. Доступны русский и английский языки. Благодаря мощной нейросети конвертация голоса в текст происходит моментально.

-----------------------------------------------------------

Если хотите быстро сделать кружочек из видео — RoundYourVideoBot

-----------------------------------------------------------

Расшифровка голосовых сообщений в Telegram нейросетью<br />
Расшифровка голосовых сообщений в Telegram нейросетью

Voix — бесплатный Telegram-бот на основе ИИ для распознавания речи в голосовых и видеосообщениях (кружочках) и быстрого перевода ее в текст. В настоящее время бот распознает русский и английский языки. Скоро транскрибация будет возможна и на других языках.

Текстовая расшифровка происходит при помощи Python-библиотеки SpeechRecognition, использующей современные нейросети. Принимаются голосовые сообщения, кружочки, а также аудио и видео в различных форматах.

Для транскрибации, то есть перевода аудио или видео в текстовую форму, необходимо: открыть Voix в Telegram, нажать "Старт" для начала работы, переслать боту голосовое или видеосообщение, после чего начнется распознавание речи. Текстовая расшифровка направляется пользователю сразу же после распознавания нейросетью. Регистрироваться где-либо, подписываться или выбирать что-либо для использования бота не нужно.

Все файлы, направляемые боту, автоматически удаляются сразу же после распознавания речи. Удаление происходит даже в случае непредвиденных ошибок (которые иногда возникают в работе серверов Telegram), так что никакие файлы пользователя на стороне бота не хранятся. Распознанный текст направляется пользователю и также нигде не хранится. Шифрование обеспечивается серверами Telegram, через которые осуществляется доступ к Telegram API. Следует отметить, что в Telegram Bot API не используется сквозное шифрование, как и в личных чатах по умолчанию.

Telegram-бот Voix может распознавать голосовые сообщения и аудио в различных форматах длительностью до 15 минут, видео — до 6 минут и размером не более 20 Мб. Для удобства прочтения более длинные голосовые сообщения разбиваются на части, которые направляются пользователю поочередно по мере их распознавания нейросетью.

С недавнего времени также появилась возможность загружать большие файлы — длинные аудио и видео до 3 часов неограниченного размера.

Время перевода аудио в текст зависит от длительности голосового сообщения. Среднее время ответа на сообщения до 30 секунд — 3 секунды, до 3 минут — 7 секунд. Но даже при длительных голосовых сообщениях транскрибация первых минут происходит моментально, и пользователь сразу же может приступить к прочтению, не дожидаясь полной расшифровки.

Изначально Voix как мини-проект предназначался только для голосовых сообщений в приватных чатах Телеграм. Теперь возможна текстовая расшифровка голосовых сообщений и в групповых чатах. Добавить бота в группу можно через стартовую страницу, которая открывается при нажатии на логотип Voix. Добавив бота в качестве участника группы, все голосовые сообщения будут автоматически переводиться в текст.

Voix написан на языке программирования Python без использования каких-либо конструкторов Telegram-ботов. Запросы от пользователей принимаются в режиме многопоточности (то есть их обработка происходит в независимых потоках), а современная нейросеть выполняет расшифровку моментально.

В заключение хочется сказать, что скорость и простота, а также возможность расшифровки различных типов аудио и видео являются главными преимуществами Telegram-бота Voix. Если заинтересовало — you're welcome!

1212
48 комментариев

Теперь делать расшифровку голосовых, аудио и видео можно на английском языке!

2
Ответить

Не хватает разбивки по голосам в диалогах. Когда реплики разных людей сливаются в единый текст, становится трудно читать.

3
Ответить

Ценное замечание! Можно попробовать осуществить такую разбивку...

2
Ответить