{"id":14274,"url":"\/distributions\/14274\/click?bit=1&hash=fadd1ae2f2e07e0dfe00a9cff0f1f56eecf48fb8ab0df0b0bfa4004b70b3f9e6","title":"\u0427\u0435\u043c \u043c\u0443\u0440\u0430\u0432\u044c\u0438\u043d\u044b\u0435 \u0434\u043e\u0440\u043e\u0436\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0441\u0442\u0430\u043c?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"6fbf3884-3bcf-55d2-978b-295966d75ee2"}

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Roman No

Нормализация аудио может работать лучше -иногда на записи один собеседник говорит тихо, а второй -нормально. Тихий сигнал-принимается за шум и на выходе - монолог Гамлета. Можно бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Еще смешивает собеседников -по факту часто неверно разделяет

Ответить
Развернуть ветку
Roman No

стандартная функция «нормализации не работает в таком разе, нужно резать на куски и отдельно нормализовать. ps анализировались диктофонные записи, шума постороннего практически нет; речь хорошо различима при нормализации до 300%

Ответить
Развернуть ветку
Alexander Veysov
Автор

У нас сейчас сначала применяется VAD, а потом нормализация и все остальное.

Ответить
Развернуть ветку
Roman No

-А вот на таких данных не работает! -Э-э-э, батенька, это у вас неверные данные. наш VAD не может ошибаться, а этап выбора технологий давно пройден. :)

Ответить
Развернуть ветку
Alexander Veysov
Автор

Если в вашем юзкейсе люди делают очень много пауз, то странно требовать кастомизации бесплатного публичного инструмента

Если нужен глубокий кастом и адаптация под домен - это услуга, которую мы оказываем коммерчески

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда