Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Флексий Гром

Это жесть, распознает очень плохо

Ответить
Развернуть ветку
Отнюдь

говорите просто фразы из брат 2 и все нормально распознается

Ответить
Развернуть ветку
1 комментарий
Анна Слижикова

Вы довольно многого требуете от современных технологий. Со специфическими терминами возникают проблемы у многих систем распознавания речи, будь то Силеро, Яндекс, Гугл или Сбер.

Ответить
Развернуть ветку
12 комментариев
Ivan Zamorev

Просто нужно чётко говорить) дикция🤟 Супер бот!! Слава разработчикам!

Ответить
Развернуть ветку
2 комментария
Евгений Найдёнов

было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
4 комментария
Viktor Kutolkin

Идеально было бы просто дать каждому пользователю решать, хочет он принимать голосовые или нет. Это намного проще, легче и быстрее. Продолжать модернизировать свои системы вполне можно будет на оставшихся упоротых. Их, наверняка, будет немало

Ответить
Развернуть ветку
Никита Орлов

Мне по работе часто абсолютно неудобно печатать а информации необходимо сообщить большое количество быстро и резко, и голосовые в данном случае очень удобны, если они удобны и твоему собеседнику. Плюс в ВК, например, уже давно полно ботов, которые относительно приемлемо распознают речь.

Ответить
Развернуть ветку
11 комментариев
Lexx Sky

В аське это уже года 4 как есть

Ответить
Развернуть ветку
3 комментария
Константин Хикс

Есть такие люди, речь которых распознать трудно даже человеку, даже если вы перед ним находитесь, и у вас есть навык чтения по губам, все равно нихрена не понятно. Такую ахинею иногда несут. Про людей с нарушением слуха или речи я не говорю, здесь другое дело. Так что идеально скорее всего не будет никогда. А то какой нибудь генерал армии какой нибудь страны, наговорит на мессенджер, и случайно подлодка всплывет где-то, а он всего лишь водку заказывал.

Ответить
Развернуть ветку
4 комментария
Евгений Рогов

Не поверишь, в яндекс мессенджере есть такой функционал.

Ответить
Развернуть ветку
Oleg Karpov

Возможно, недолго ждать осталось. Whatsapp уже пилит такую фичу: https://wabetainfo.com/whatsapp-is-working-on-voice-message-transcription/

Ответить
Развернуть ветку
3 комментария
Игорь Гольмаков

Вот что надо бы телеграму вводить, а не рекламу. За такую возможность и я бы заплатил)

Ответить
Развернуть ветку
Гаджимурад Магомедрасулов

а куда делся Voicy

Ответить
Развернуть ветку
borodutch

Все еще есть, не успел прикрутить Silero к себе!

Ответить
Развернуть ветку
20 комментариев
Valentin Dombrovsky

Вы не написали, что Вам надоело и подтолкнуло к созданию бота.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Не совсем понял, что именно надоело.

Ответить
Развернуть ветку
1 комментарий
Семен Переделкин

Звучит неплохо. На днях протестирую.

Ответить
Развернуть ветку
Алексей Сергеев

А на деле шляпа

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Anna Petrova

Дуров тоже говорил "рекламы не будет" ))))

Ответить
Развернуть ветку
Alexander Veysov
Автор

Да, и еще Дуров с самого начала имел большие вливания капитала из неоднозначных источников.

Хочется спросить, какое это имеет отношение к нам?

Ответить
Развернуть ветку
Олег Радов

реклама есть, но вы держитесь

Ответить
Развернуть ветку
Nathan Zachary

@voicybot
это ты?

Ответить
Развернуть ветку
Бабка в засаде

Чето мне как пользователю же пох что у вас там под капотом. Свои технологии или обертки над сторонним апи. Я изначально скептически был настроен, я не верю что мелкая контора может сделать такой технологически емкий продукт лучше, чем целые отделения MS, гугла и прочих корпораций. Ну и судя по комментам я был прав - пипл кидает скриншоты что у вас технология слабая

Ответить
Развернуть ветку
Wonabeez Doratie

Здорово, что вы делаете такие вещи)

Ответить
Развернуть ветку
Дмитрий Перепёлкин

В чём принципиальное отличие от @VoiceMsgBot, который существует больше года в большинстве групп и уже покрылся мхом?

Ответить
Развернуть ветку
Leha Shum

Принципиальное отличие в том что тут собственный движок
Это как бы очень круто если и правда работает.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Я свечку не держал, но готов предположить что там wit

Ответить
Развернуть ветку
Dmitry Yashin

И то, и это говно нерабочее.

Ответить
Развернуть ветку
Anna Petrova

Дуров тоже говорил "рекламы не будет" )))) запятые бот ставит?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Вот картинка из заголовка статьи. Да, ставит.

Ответить
Развернуть ветку
8 комментариев
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Alexander Veysov
Автор

Расстановка знаков препинания и заглавных букв делается только для упрощения чтения.

Вообще письменная речь и спонтанная устная имеют довольно мало общего, если внимательно поразбираться.

Ответить
Развернуть ветку
1 комментарий
Ivan Zamorev

Супер разработка. Почему в РФ такая дикая ноющая негативная реакция на всё своё. Странный народ)

Ответить
Развернуть ветку
Roman No

Нормализация аудио может работать лучше -иногда на записи один собеседник говорит тихо, а второй -нормально. Тихий сигнал-принимается за шум и на выходе - монолог Гамлета. Можно бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Еще смешивает собеседников -по факту часто неверно разделяет

Ответить
Развернуть ветку
Roman No

стандартная функция «нормализации не работает в таком разе, нужно резать на куски и отдельно нормализовать. ps анализировались диктофонные записи, шума постороннего практически нет; речь хорошо различима при нормализации до 300%

Ответить
Развернуть ветку
3 комментария
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто на записи один собеседник говорит тихо, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета. Вам бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Плюс мешанина из собеседников -по факту не разделяет

Ответить
Развернуть ветку
Alexander Veysov
Автор

Технически, чтобы разделить всех говорящих инструменты у нас есть.

На практике, для публичного бесплатного инструмента принцип garbage in = garbage out очень сильно ограничивает применимость.

И скорее всего настроив под один кейс, в других будут проблемы. Поэтому мы просто не ставили задачу отрабатывать такие кейсы.

Ответить
Развернуть ветку
Anatol Seibel

почему в боте нет поддержки m4a а на сайте есть?

Ответить
Развернуть ветку
Alexander Veysov
Автор

На сайте более страшный зоопарк из библиотек. В плане свести все к общему знаменателю (но в сторону упрощения), это итерационный процесс. В конечном итоге мы читаем аудио сейчас через sox, там есть определенные проблемы с рядом форматов. А тащить ffmpeg не хочется.

https://t.me/snakers4/2852

Audio File Validation and Reading in The Wild

Imagine that you receive a binary blob and you have to efficiently:

- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;

In research, typically you can jus...
Audio File Validation and Reading in The Wild

Imagine that you receive a binary blob and you have to efficiently:

- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;

In research, typically you can just try reading the file. But in production reading and downloading the whole file should be delayed as much as possible.

Long story short, after many iterations of trial and error - the best combination is python magic + torchaudio with sox backend.

The first one is a general well-established library and the second one is based around a CFFI sox wrapper (it is fast, e.g. 3-4x faster than ffmpeg) and has a nice and clean API.

Also we used to use libsoundfile / pysoundfile and tinytag, but this combination blows other libraries out of the water.
Ответить
Развернуть ветку
Михаил Тищенко

Закинул песню метелицы дорога сна- поржал но идея хорошо

Ответить
Развернуть ветку
Alexander Veysov
Автор
Ответить
Развернуть ветку
Виталий

Ок, попробуем.

Ответить
Развернуть ветку
Виталий

Люди в группе хотят отключение временных меток.

Ответить
Развернуть ветку
5 комментариев
Ivan Zamorev

Круто

Ответить
Развернуть ветку
Ivan Zamorev

Отлично распознаёт! Вы круто сделали! У большинства просто речь не как у артистов, вот и не разобрать боту

Ответить
Развернуть ветку
Oleh Kasianov

А зачем если с этим гуглъ клава справляется на ура

Ответить
Развернуть ветку
Alexander Veysov
Автор

Есть 3 причины

- 95% пользователей об этом не знают
- 5% выключили все сервисы гугла
- поддержка независимого отечественного производителя нас, а не корпорации из США

Ответить
Развернуть ветку
Виталий

Судя по вашему тексту она справляется на уровне собаки.

Ответить
Развернуть ветку
Gaenar S

.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Михаил Лебедев

Зачем бот, если есть iME?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Обновления по горячим следам

- FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
- Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
- Важное обновление — баг с "затором" в боте пофикшен
- Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Обновления по горячим следам 2

- Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
- Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
- Навесили try/catch в несколько ключевых мест;

Ответить
Развернуть ветку
Anna Valueva

Это лучший расшифровщик из встреченных мной. Естественно идеал в таких вещах трудно достижим, но тот файл, который я закинула, был расшифрован на 90% верно, это очень хороший результат!

Ответить
Развернуть ветку
Artem Visotsky

Имхо дерьмо полное.
Работает через пень колоду.

Ответить
Развернуть ветку
Александр IY

Хорошее приложение. Все работает. Можно ли настроить так, чтобы оставался только текст, а аудио файл удалялся сразу после конвертации

Ответить
Развернуть ветку
Александр IY
Ответить
Развернуть ветку
1 комментарий
Alexander Veysov
Автор

Сообщение удалено

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда