Наши сервисы для бесплатного распознавания речи стали лучше и удобнее

Сейчас для всех желающих доступны два наших сервиса для распознавания речи:

Бот в телеграме для коротких и не очень длинных аудио (мы не стали обходить ограничения телеграма, основная задача бота — распознавать голосовые сообщения);
Сервис audio-v-text.silero.ai для более длинных аудио, в котором можно скачать отчет в виде эксельки.

Сервис написан нашими собственными силами, работает на нашем собственном движке распознавания речи, без проксирования во внешние сервисы и с минимально возможным количеством зависимостей. В случае нарушения связности возможен оперативный перевод хостинга в другие регионы.

Мы провели и продолжаем работу над ошибками и внесли ряд улучшений для пользователей, о которых мы бы хотели рассказать.

└─ Улучшения для пользователей

└─ С какими проблемами пришлось столкнуться за кулисами

└─ Обратная связь пользователей

└─ Приватность пользователей

└─ Немного статистики

└─ Вместо заключения

Если бот уже давно выдает текст со знаками препинания и заглавными буквами, то в сервис audio-v-text.silero.ai на сайте мы это только-только завезли;
Точно так же в бота мы добавили обработку двух популярных форматов: .m4a и .aac, которые в веб-сервисе мы обрабатывали с самого начала;
Достаточно давно мы пофиксили более серьезную проблему с отсылкой писем в случае проблем и падений;
Поддержка зоопарка форматов даже с наличием нормальных библиотек, которые пытаются все это решить за вас, все равно приводит к разного рода неприятным краевым случаям. Поэтому под капотом мы поменяли библиотеки на более простые, удачные и универсальные и упростили логику обработки файлов. Проблем для пользователей стало меньше, как и проблем по поддержке для нас.

Пользователи Apple часто присылали аудио с расширением, которое не соответствует содержимому, а в содержимом audio/m4a;
Пользователи в целом указывают домен аудио неохотно (1/3 запросов);
Вообще борьба с файлами, где используемый кодек, расширение и mime-тип в телеграме не соответствуют друг другу — это основная причина страданий. Основная фишка тут состоит в том, что во избежание паразитной нагрузки и лишнего трафика, нужно по сути 3 раза фильтровать файлы, каждый раз сужая воронку, иногда креативно подходя к проверкам файлов;
Наши письма с отчетами попадают во вкладку "Промоакции"/"Promotions" в фильтрах гугла, и пользователи думают, что письмо не пришло. Это якобы лечится "большей персонализацией" письма ("Привет, %{Username}!"), но пока руки до этого не дошли;
Ряд проблем с обработкой "особенных" сообщений телеграма, таких как альбомы с музыкой или сообщений, куда аудио как бы "встроены";
Работа над стабильностью и зависаниями самого бота и его очередей (для ускорения разработки мы выбрали высокоуровневые очереди, что имело свою цену в виде более сложной отладки);
В процессе разработки нового функционала и фич, мы отловили некоторое количество багов и проблем в своем бекенде и различных АПИ (и на самом деле этим и прекрасны эти боты);
Пришлось поднастроить ряд правил мониторинга серверов, чтобы удалось совсем "забыть" про бота;

В целом мы получили несколько десятков положительных отзывов от пользователей виде личных сообщений в телеграме и почте. Также когда что-то ломается затягивается выкатываение новых фич (последние разы мы уже сами ломали сервисы, а не оно само ломалось), пользователи помогают тем, что сразу пишут в телеграм или на почту.

Также мы слышали энное количество разных запросов на новые фичи (в основном люди конечно жаловались на неработающие форматы или на ошибки), но больше всего люди упоминали возможность выключить метки времени в распознанном тексте. Это в принципе означает необходимость "кастомизации" бота под каждого пользователя. И хотя такая возможность нами была заложена в рамках заведения капчи, мы решили пока оставить бота максимально простым, не требующим настроек.

Нам несколько раз задавали такой вопрос. Мы не храним имена, фамилии, персональные данные пользователей сервиса — хотя бы по той простой причине, что мы к ним просто не имеем доступа и они нам не нужны. Телеграм отдает весьма ограниченные данные (и мы храним только ID групп и пользователей).

С другой стороны, чтобы распознавать аудио в группе, бот должен иметь к ним доступ. Мы фильтруем все сообщения в группах на предмет наличия нужных нам форматов аудио, и только их скачиваем и потом распознаем.

Мы не собираем эти данные для перепродажи их инвесторам и третьим лицам. Мы вообще не считаем бот коммерческим продуктом. Мы не рекламируем NFT, крипту, инвестиционные продукты или проекты. Мы не занимаемся проксированием трафика в иностранные сервисы.

Тут сразу нужно опредилиться с понятиями. Поскольку аудио могут быть сколь угодно длинными или короткими — одним запросом мы считаем непрерывный поток речи внутри аудио. Обычно до 7 — 15 секунд. Также мы не сразу стали вести статистику по сессиям и группам в телеграме, плюс был пробел в статистике на несколько дней.

Из графиков могу сделать три вывода:

У бота и сервиса случился небольшой хабра-эффект в начале, потом понятно остались только долгосрочные пользователи;
Популярность бота и сервиса примерно одинакова, если измерять таким методом;
Виден плавный тренд роста популярности по группам.

Хотим добавить, что мы не паникуем, продолжаем работу и остаемся людьми, чего и вам желаем.