Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
140 комментариев
Написать комментарий...
Флексий Гром

Это жесть, распознает очень плохо

Ответить
Развернуть ветку
Анна Слижикова

Вы довольно многого требуете от современных технологий. Со специфическими терминами возникают проблемы у многих систем распознавания речи, будь то Силеро, Яндекс, Гугл или Сбер.

Ответить
Развернуть ветку
Alexander Veysov
Автор

На эту тему мы постарались что-то даже написать в /faq.

Редкие имена собственные, редкие термины, жаргон, смешение языков, айтишные термины - итд итп - все это так плотно вошло в обиход, что мы не замечаем.

Для алгоритмов это всегда сложно. С этим можно бороться, но странно было бы ожидать от бесплатного публичного решения идеальной работы с каким-то узким доменом.

Именно по этой причине я ловлю когнитивный диссонанс с вещей типа copilot.

Ответить
Развернуть ветку
Ватная Корзиночка

"странно ожидать от бесплатного публичного" - вы так подчеркиваете везде его бесплатность, как будто вам памятник поставить надо. По факту вы на людях тестите и дообучаете свою нейросеточку забесплатно, чтоб потом продать для какого-нибудь корпоративного решения. Если б вы реально топили за "бесплатную публичность", то выложили бы сорцы, как это сделали, например, opencv.

Ответить
Развернуть ветку
Soul Manioe

Разъеб...🤣

Ответить
Развернуть ветку
Alexander Veysov
Автор

Мы нигде не скрывали, что это один из способов (далеко не самый быстрый и полезный замечу) для набора доп. базы сообщений.

Повторю - ключевой момент состоит в том, что:

- Мы не собираем и не продаем ваши перс. данные

- Мы сделали полностью полноценное решение и не являемся аналогичным сборщиком данных для корпораций и не просто перкоадываем json от пользователей Гуглу

Ответить
Развернуть ветку
Ivan Zamorev

Вы молодцы! Удивительно сколько негатива на vc. Ну Россия, что сказать)

Ответить
Развернуть ветку
Alexander Veysov
Автор

Внезапно, я был удивлен насколько здесь более токсично, чем даже на Хабре.

Ответить
Развернуть ветку
Ivan Zamorev

Хабр вершина. Там разработчики 🤟🤓

Ответить
Развернуть ветку
137 комментариев
Раскрывать всегда