{"id":14273,"url":"\/distributions\/14273\/click?bit=1&hash=820b8263d671ab6655e501acd951cbc8b9f5e0cc8bbf6a21ebfe51432dc9b2de","title":"\u0416\u0438\u0437\u043d\u044c \u043f\u043e \u043f\u043e\u0434\u043f\u0438\u0441\u043a\u0435 \u2014 \u043e\u0441\u043d\u043e\u0432\u043d\u044b\u0435 \u0442\u0440\u0435\u043d\u0434\u044b \u0440\u044b\u043d\u043a\u0430 \u043d\u0435\u0434\u0432\u0438\u0436\u0438\u043c\u043e\u0441\u0442\u0438","buttonText":"","imageUuid":""}

Бесплатное распознавание речи для всех желающих

Бесплатное распознавание речи для всех желающих

После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.

Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:

  • Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
  • Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
  • Да, этот сервис будет бесплатным.
  • Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).

Как Пользоваться

Инструкция простая до банальности:

  • зайти на страничку,
  • опционально попробовать демку с микрофоном,
  • залить свой файл в формочку,
  • получить распозанный файл на email.

По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.

Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.

Идея Сервиса

Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:

  • Есть решения, требующие регистрации, оплаты, создания личного кабинета.
  • Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
  • Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.

Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.

Текущие Ограничения

У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:

  • Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
  • Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
  • Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
  • Чем лучше качество исходного аудио, тем лучше качество транскрибации.
  • На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
  • Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.

Безопасность и Использование Данных

Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.

Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.

0
87 комментариев
Написать комментарий...
Pasha Kislova

На самом деле найти транскрабатор реальная проблема. В формате:наговорил-получил doc файл.
Пользуюсь периодически бесплвтными конверторами. Коробит? Да, коробит. Но пользуюсь. Мне не хватает транскрибатора формата : наговорил - получил файл.

Ответить
Развернуть ветку
Тайный агент

Я могу сделать что нужно. Мне это даже в удовольствие!

Ответить
Развернуть ветку
Alexander Veysov
Автор

Наговорить - есть приложение в каждом телефоне по умолчанию. Мы принимаем готовые просто аудио-файлы.

Есть ряд моментов с техническими или текстами с содержанием английских слов, с простановкой знаков препинания. Какие-то понятно как решить, какие-то - нет.

Ответить
Развернуть ветку
Тайный агент

Вы молодцы, что сделали сервис. Я понимаю, что он в будущем будет платный, как бы вы не говорили, что зависит всё от аудитории. Но я приверженец традиционного перевода, так как это помогает мне развивать мозг и изучать языки.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Мы не рассматриваем b2c как монетизируемый рынок. Насчет изучения языков - наш сервис вообще ортогонален этому.

Ответить
Развернуть ветку
84 комментария
Раскрывать всегда