{"id":14285,"url":"\/distributions\/14285\/click?bit=1&hash=346f3dd5dee2d88930b559bfe049bf63f032c3f6597a81b363a99361cc92d37d","title":"\u0421\u0442\u0438\u043f\u0435\u043d\u0434\u0438\u044f, \u043a\u043e\u0442\u043e\u0440\u0443\u044e \u043c\u043e\u0436\u043d\u043e \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0442\u044c \u043d\u0430 \u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435 \u0438\u043b\u0438 \u043f\u0443\u0442\u0435\u0448\u0435\u0441\u0442\u0432\u0438\u044f","buttonText":"","imageUuid":""}

Alexander Veysov

25 ноя 2021 25.11.2021

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

└─ Как воспользоваться

└─ Ключевые особенности и отличия от существующих решений

└─ Безопасность и ограничения

└─ Дальнейшее развитие

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

Введите команду /start для старта;
/help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

Мы НЕ собираем данные о пользователях;
Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

35 показов

17K открытий

2 репоста

140 комментариев

Написать комментарий...

Флексий Гром

25.11.2021

Это жесть, распознает очень плохо

Ответить

Развернуть ветку

Отнюдь

25.11.2021

говорите просто фразы из брат 2 и все нормально распознается

Ответить

Развернуть ветку

1 комментарий

Анна Слижикова

25.11.2021

Вы довольно многого требуете от современных технологий. Со специфическими терминами возникают проблемы у многих систем распознавания речи, будь то Силеро, Яндекс, Гугл или Сбер.

Ответить

Развернуть ветку

12 комментариев

Ivan Zamorev

27.11.2021

Просто нужно чётко говорить) дикция🤟 Супер бот!! Слава разработчикам!

Ответить

Развернуть ветку

2 комментария

Евгений Найдёнов

25.11.2021

было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))

Ответить

Развернуть ветку

Аккаунт удален

26.11.2021

Комментарий недоступен

Ответить

Развернуть ветку

4 комментария

Viktor Kutolkin

25.11.2021

Идеально было бы просто дать каждому пользователю решать, хочет он принимать голосовые или нет. Это намного проще, легче и быстрее. Продолжать модернизировать свои системы вполне можно будет на оставшихся упоротых. Их, наверняка, будет немало

Ответить

Развернуть ветку

Никита Орлов

25.11.2021

Мне по работе часто абсолютно неудобно печатать а информации необходимо сообщить большое количество быстро и резко, и голосовые в данном случае очень удобны, если они удобны и твоему собеседнику. Плюс в ВК, например, уже давно полно ботов, которые относительно приемлемо распознают речь.

Ответить

Развернуть ветку

11 комментариев

Lexx Sky

25.11.2021

В аське это уже года 4 как есть

Ответить

Развернуть ветку

3 комментария

Константин Хикс

26.11.2021

Есть такие люди, речь которых распознать трудно даже человеку, даже если вы перед ним находитесь, и у вас есть навык чтения по губам, все равно нихрена не понятно. Такую ахинею иногда несут. Про людей с нарушением слуха или речи я не говорю, здесь другое дело. Так что идеально скорее всего не будет никогда. А то какой нибудь генерал армии какой нибудь страны, наговорит на мессенджер, и случайно подлодка всплывет где-то, а он всего лишь водку заказывал.

Ответить

Развернуть ветку

4 комментария

Евгений Рогов

26.11.2021

Не поверишь, в яндекс мессенджере есть такой функционал.

Ответить

Развернуть ветку

Oleg Karpov

26.11.2021

Возможно, недолго ждать осталось. Whatsapp уже пилит такую фичу: https://wabetainfo.com/whatsapp-is-working-on-voice-message-transcription/

WhatsApp is working on voice message…

Discover the details about the latest news published to celebrate 100k followers on Twitter: voice…

wabetainfo.com

Ответить

Развернуть ветку

3 комментария

Игорь Гольмаков

26.11.2021

Вот что надо бы телеграму вводить, а не рекламу. За такую возможность и я бы заплатил)

Ответить

Развернуть ветку

Гаджимурад Магомедрасулов

25.11.2021

а куда делся Voicy

Ответить

Развернуть ветку

borodutch

25.11.2021

Все еще есть, не успел прикрутить Silero к себе!

Ответить

Развернуть ветку

20 комментариев

Valentin Dombrovsky

26.11.2021

Вы не написали, что Вам надоело и подтолкнуло к созданию бота.

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

Не совсем понял, что именно надоело.

Ответить

Развернуть ветку

1 комментарий

Семен Переделкин

25.11.2021

Звучит неплохо. На днях протестирую.

Ответить

Развернуть ветку

Алексей Сергеев

25.11.2021

А на деле шляпа

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Anna Petrova

25.11.2021

Дуров тоже говорил "рекламы не будет" ))))

Ответить

Развернуть ветку

Alexander Veysov

25.11.2021 Автор

Да, и еще Дуров с самого начала имел большие вливания капитала из неоднозначных источников.

Хочется спросить, какое это имеет отношение к нам?

Ответить

Развернуть ветку

Олег Радов

25.11.2021

реклама есть, но вы держитесь

Ответить

Развернуть ветку

Nathan Zachary

25.11.2021

@voicybot
это ты?

Ответить

Развернуть ветку

Бабка в засаде

26.11.2021

Чето мне как пользователю же пох что у вас там под капотом. Свои технологии или обертки над сторонним апи. Я изначально скептически был настроен, я не верю что мелкая контора может сделать такой технологически емкий продукт лучше, чем целые отделения MS, гугла и прочих корпораций. Ну и судя по комментам я был прав - пипл кидает скриншоты что у вас технология слабая

Ответить

Развернуть ветку

Wonabeez Doratie

26.11.2021

Здорово, что вы делаете такие вещи)

Ответить

Развернуть ветку

Дмитрий Перепёлкин

26.11.2021

В чём принципиальное отличие от @VoiceMsgBot, который существует больше года в большинстве групп и уже покрылся мхом?

Ответить

Развернуть ветку

Leha Shum

26.11.2021

Принципиальное отличие в том что тут собственный движок
Это как бы очень круто если и правда работает.

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

Я свечку не держал, но готов предположить что там wit

Ответить

Развернуть ветку

Dmitry Yashin

26.11.2021

И то, и это говно нерабочее.

Ответить

Развернуть ветку

Anna Petrova

25.11.2021

Дуров тоже говорил "рекламы не будет" )))) запятые бот ставит?

Ответить

Развернуть ветку

Alexander Veysov

25.11.2021 Автор

Вот картинка из заголовка статьи. Да, ставит.

Ответить

Развернуть ветку

8 комментариев

Аккаунт удален

26.11.2021

Комментарий недоступен

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

Расстановка знаков препинания и заглавных букв делается только для упрощения чтения.

Вообще письменная речь и спонтанная устная имеют довольно мало общего, если внимательно поразбираться.

Ответить

Развернуть ветку

1 комментарий

Ivan Zamorev

27.11.2021

Супер разработка. Почему в РФ такая дикая ноющая негативная реакция на всё своё. Странный народ)

Ответить

Развернуть ветку

Roman No

26.11.2021

Нормализация аудио может работать лучше -иногда на записи один собеседник говорит тихо, а второй -нормально. Тихий сигнал-принимается за шум и на выходе - монолог Гамлета. Можно бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Еще смешивает собеседников -по факту часто неверно разделяет

Ответить

Развернуть ветку

Roman No

26.11.2021

стандартная функция «нормализации не работает в таком разе, нужно резать на куски и отдельно нормализовать. ps анализировались диктофонные записи, шума постороннего практически нет; речь хорошо различима при нормализации до 300%

Ответить

Развернуть ветку

3 комментария

Roman No

26.11.2021

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить

Развернуть ветку

Roman No

26.11.2021

Ответить

Развернуть ветку

Roman No

26.11.2021

Ответить

Развернуть ветку

Roman No

26.11.2021

Нормализация аудио фигово работает -часто на записи один собеседник говорит тихо, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета. Вам бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Плюс мешанина из собеседников -по факту не разделяет

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

Технически, чтобы разделить всех говорящих инструменты у нас есть.

На практике, для публичного бесплатного инструмента принцип garbage in = garbage out очень сильно ограничивает применимость.

И скорее всего настроив под один кейс, в других будут проблемы. Поэтому мы просто не ставили задачу отрабатывать такие кейсы.

Ответить

Развернуть ветку

Anatol Seibel

26.11.2021

почему в боте нет поддержки m4a а на сайте есть?

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

На сайте более страшный зоопарк из библиотек. В плане свести все к общему знаменателю (но в сторону упрощения), это итерационный процесс. В конечном итоге мы читаем аудио сейчас через sox, там есть определенные проблемы с рядом форматов. А тащить ffmpeg не хочется.

https://t.me/snakers4/2852

Audio File Validation and Reading in The Wild

Imagine that you receive a binary blob and you have to efficiently:

- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;

In research, typically you can just try reading the file. But in production reading and downloading the whole file should be delayed as much as possible.

Long story short, after many iterations of trial and error - the best combination is python magic + torchaudio with sox backend.

The first one is a general well-established library and the second one is based around a CFFI sox wrapper (it is fast, e.g. 3-4x faster than ffmpeg) and has a nice and clean API.

Also we used to use libsoundfile / pysoundfile and tinytag, but this combination blows other libraries out of the water.

Ответить

Развернуть ветку

Михаил Тищенко

26.11.2021

Закинул песню метелицы дорога сна- поржал но идея хорошо

Ответить

Развернуть ветку

Alexander Veysov

28.11.2021 Автор

Ответить

Развернуть ветку

Виталий

27.11.2021

Ок, попробуем.

Ответить

Развернуть ветку

Виталий

27.11.2021

Люди в группе хотят отключение временных меток.

Ответить

Развернуть ветку

5 комментариев

Ivan Zamorev

27.11.2021

Круто

Ответить

Развернуть ветку

Ivan Zamorev

27.11.2021

Отлично распознаёт! Вы круто сделали! У большинства просто речь не как у артистов, вот и не разобрать боту

Ответить

Развернуть ветку

Oleh Kasianov

28.11.2021

А зачем если с этим гуглъ клава справляется на ура

Ответить

Развернуть ветку

Alexander Veysov

28.11.2021 Автор

Есть 3 причины

- 95% пользователей об этом не знают
- 5% выключили все сервисы гугла
- поддержка независимого отечественного производителя нас, а не корпорации из США

Ответить

Развернуть ветку

Виталий

28.11.2021

Судя по вашему тексту она справляется на уровне собаки.

Ответить

Развернуть ветку

Gaenar S

26.11.2021

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Михаил Лебедев

26.11.2021

Зачем бот, если есть iME?

Ответить

Развернуть ветку

Alexander Veysov

26.11.2021 Автор

Обновления по горячим следам

- FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
- Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
- Важное обновление — баг с "затором" в боте пофикшен
- Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.

Telegram-бот Silero бесплатно переводит речь в…

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего…

habr.com

Ответить

Развернуть ветку

Alexander Veysov

27.11.2021 Автор

Обновления по горячим следам 2

- Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
- Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
- Навесили try/catch в несколько ключевых мест;

Ответить

Развернуть ветку

Anna Valueva

21.02.2022

Это лучший расшифровщик из встреченных мной. Естественно идеал в таких вещах трудно достижим, но тот файл, который я закинула, был расшифрован на 90% верно, это очень хороший результат!

Ответить

Развернуть ветку

Artem Visotsky

6.07.2022

Имхо дерьмо полное.
Работает через пень колоду.

Ответить

Развернуть ветку

Александр IY

13.11.2022

Хорошее приложение. Все работает. Можно ли настроить так, чтобы оставался только текст, а аудио файл удалялся сразу после конвертации

Ответить

Развернуть ветку

Александр IY

13.11.2022

100 ₽

Ответить

Развернуть ветку

1 комментарий

Alexander Veysov

25.11.2021 Автор

Сообщение удалено

Ответить

Развернуть ветку

Написать комментарий...

137 комментариев

Раскрывать всегда