{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Евгений Найдёнов

было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))

Ответить
Развернуть ветку
Никита Орлов

Мне по работе часто абсолютно неудобно печатать а информации необходимо сообщить большое количество быстро и резко, и голосовые в данном случае очень удобны, если они удобны и твоему собеседнику. Плюс в ВК, например, уже давно полно ботов, которые относительно приемлемо распознают речь.

Ответить
Развернуть ветку
Виталий Воробьев

Всегда удивляюсь, когда кому-то неудобно печатать и теперь собеседнику придется неудобно трубку у уха держать две минуты, параллельно ища комп/бумажку куда он поток мыслей перепишет и структурирует в задачу.

Ответить
Развернуть ветку
Никита Орлов

Офисный планктон да, ты в офисе в тепле сидишь, а теперь прикинь ты с камерой на морозе, и тебе надо такому же отморозку что-то сообщить по быстрому. Это в сто раз удобнее, чем печатать замёршими руками. Но офисным жителям, конечно не понять, это да. Впрочем плевать на ваши проблемы. Не хочешь не пиши, если мне неудобно я тебе писать всё равно ничего не буду. В моей среде рабочее общение в 9 из 10 случаев голосовые всё равно и всем удобно, так что боль тех, кто не любит голосовые - исключительно ваши проблемы. Мир не идеален - не хочешь не пиши, не получишь голосовых. Текстом я всё равно писать не буду если мне не удобно.

Ответить
Развернуть ветку
Sergey Ilyin

+. Если неудобно писать - ну ок, сам себе надиктуй, доберёшься до того места, где можно написать - напишешь

Ответить
Развернуть ветку
Utin Antip

Так есть же набор текста голосом

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Антон Кузьмин

Поставьте себя на место получателя вашего потока сознания )

Ответить
Развернуть ветку
Никита Орлов

Прикинь, нам всем так удобно. Мнение офисного планктона спросили забыть. Ты в тепле сидишь - тебе удобно печатать и читать, на морозе с камерой в перчатках - я тебе печатать ничего не буду. Нужно что-то, не обломаешься - послушаешь. Или не пиши вообще.

Ответить
Развернуть ветку
Антон Кузьмин

Ты чего такой злой? Всего-то надо было закинуть - мол чуваки смотрите какой кейс: используем аудиосообщения вместо рации.

А «офисный планктон» сразу представил себе, как в аудио надиктовывается тз на 2 листа.

Ответить
Развернуть ветку
Никита Орлов

Где я злой то? Просто по пунктам объяснил, что за пределами привычной офисным жителям реальности - есть ещё абсолютно другая.

Ответить
Развернуть ветку
Евгений Найдёнов

согласен, но одно дело на морозе не можешь печатать, потому что не возможности, а другое дело когда «на морозе» не думая о получателе надиктовывается ТЗ или правки по проекту.
заметил, люди умеющие мыслить письменно более понятные в общении.

Ответить
Развернуть ветку
Никита Орлов

Я другим занимаюсь, и мне ясно излагаться практически не требуется. Если бы я работал в IT, понятно, что мыслил бы по-другому.

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда