{"id":14268,"url":"\/distributions\/14268\/click?bit=1&hash=1e3309842e8b07895e75261917827295839cd5d4d57d48f0ca524f3f535a7946","title":"\u0420\u0430\u0437\u0440\u0435\u0448\u0430\u0442\u044c \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u0430\u043c \u0438\u0433\u0440\u0430\u0442\u044c \u043d\u0430 \u0440\u0430\u0431\u043e\u0447\u0435\u043c \u043c\u0435\u0441\u0442\u0435 \u044d\u0444\u0444\u0435\u043a\u0442\u0438\u0432\u043d\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f71e1caf-7964-5525-98be-104bb436cb54"}

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Евгений Найдёнов

было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))

Ответить
Развернуть ветку
Константин Хикс

Есть такие люди, речь которых распознать трудно даже человеку, даже если вы перед ним находитесь, и у вас есть навык чтения по губам, все равно нихрена не понятно. Такую ахинею иногда несут. Про людей с нарушением слуха или речи я не говорю, здесь другое дело. Так что идеально скорее всего не будет никогда. А то какой нибудь генерал армии какой нибудь страны, наговорит на мессенджер, и случайно подлодка всплывет где-то, а он всего лишь водку заказывал.

Ответить
Развернуть ветку
Oleg Karpov

Это понятно, что идеально не будет. Но я любому решению буду рад. Чтобы эти сраные голсовухи прослушать, столько тело движений лишних, это капец.
Если в итоге будет голосовуха, а под ней текст, вообще отлично.
Еще мне зашла возможность в whatsapp - все голосовухи можно ускорить. В два раз быстрей все эти мэ-ки, эээ-ки можно прослушать

Ответить
Развернуть ветку
Arman Kurmanbay

Небольшой лайфхак, не самый удобный, но иногда помогает. В десктопной версии WhatsApp можно скачать голосовые сообщения, закинуть в Google Speech to Text (https://cloud.google.com/speech-to-text) и получить транскрипцию

Ответить
Развернуть ветку
Константин Хикс

Типа как реклама на радио, в ускоренном режиме, тоже хрен разберёшь. Есть одна мадам , особенно раздражает, вся суть в двух словах, но нет же, надо кучу намычать в микрофон бесполезной болтовни 🤦‍♀️ Иногда говорю людям, пишите на почту) есть повод ответить позже.

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда