{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Anna Petrova

Дуров тоже говорил "рекламы не будет" )))) запятые бот ставит?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Вот картинка из заголовка статьи. Да, ставит.

Ответить
Развернуть ветку
Anna Petrova

Да да, картинку вижу. Но хотелось уточнить )))
Очень интересно.
Движок / алгоритм распознавания свой?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Вроде этот момент тоже явно в статье отразил:

Мы гордимся тем, что: Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
Ответить
Развернуть ветку
Филипп

А что насчёт ограничений? Есть ограничение на размер файла? А может у вас есть отдельный сервис для работы с большими файлами?

И насчёт безопасности, Вы как-то шифруете данные?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Это тоже все отразил в статье. Если коротко повторить:

- .. нашего бесплатного публичного решения для транскрибации длинных аудио - https://audio-v-text.silero.ai/
- Ограничения можно посмотреть в самом боте, начав пользоваться, они конечно же есть
- Везде end-to-end шифрование

Ответить
Развернуть ветку
Всвиторе
- Везде end-to-end шифрование

Почему везде? На скриншоте незашифрованный текст. Лукавите.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Когда вы на сайт по НTTPS заходите, в браузере у вас тоже кракозябры, а сертификат в чипе в мозгу расшифровывает?

Или в том же телеграмме? Всем людям, хоть сколько понятно, что подразумеваются шифрованные интерфейсы обмена информацией между машинами.

Людям показывают читабельный текст.

Ответить
Развернуть ветку
Э

Функцию юмор включи.

Ответить
Развернуть ветку
Филипп

Ну я же шучу :)

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда