Бесплатное распознавание речи для всех желающих

Бесплатное распознавание речи для всех желающих

После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.

Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:

  • Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
  • Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
  • Да, этот сервис будет бесплатным.
  • Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).

Как Пользоваться

Инструкция простая до банальности:

  • зайти на страничку,
  • опционально попробовать демку с микрофоном,
  • залить свой файл в формочку,
  • получить распозанный файл на email.

По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.

Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.

Идея Сервиса

Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:

  • Есть решения, требующие регистрации, оплаты, создания личного кабинета.
  • Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
  • Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.

Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.

Текущие Ограничения

У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:

  • Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
  • Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
  • Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
  • Чем лучше качество исходного аудио, тем лучше качество транскрибации.
  • На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
  • Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.

Безопасность и Использование Данных

Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.

Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.

0
87 комментариев
Написать комментарий...
Николай Судиловский

Очень нужная штука. Вы молодцы. Мне такое часто нужно. Надиктовал в дороге мысли или часть ТЗ и сразу в текст, потом в файл.
Я уверен у вас будет успех, подход правильный, покажите что вы умеете, дообучите модель под тихих и Картавых и можете встраивать в другие приложения.
Публикуйте эту статью на других ресурсах.

Ответить
Развернуть ветку
Game Topia

А почему на телефоне сразу в текст не диктовать???

Ответить
Развернуть ветку
10 комментариев
Alexander Veysov
Автор

Уже на Хабре есть - https://habr.com/ru/post/587512/
Где еще опубликовать - не знаю, буду рад за подсказку

Ответить
Развернуть ветку
5 комментариев
IMI-RO.PRO

Возможность делать работу когда заняты руки чем то другим, это может помочь многим...

Ответить
Развернуть ветку
Julius Koivu

Вы пишете: "Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа)"
Есть: VK. Сам себе записываешь голосовое сообщение и там же в текст конвертится.
Но где лучше не берусь утверждать, т.к. пользовался только VK - мне хватает короткие путевые заметки делать.
Но Вам спасибо за бесплатный сервис и удачи в деле :)!

Ответить
Развернуть ветку
Alexander Veysov
Автор

Тут много противоречивых философских, идеологических и технологических моментов. Давайте по пунктам:

(0) Продуктовый момент - мы специально работаем и будем улучшать работу именно с длинными файлами. ВК скорее всего будет фокусироваться на коротких;

(1) У меня нет аккаунта ВК (я вообще считаю, что каждый уважающий себя человек, не должен сидеть в этих маркетинговых помойках - есть мессенджеры же);

(2) Недавние события показывают что соцсети стремятся к абсолютному злу. А у нас еще это конгломерат, созданный понятно кем на основе враждебного поглощения. Короче все претензии к FB + русские олигархи + mail.ru;

(3) Соцсети не поддерживают основные принципы интернета - заменимость и открытость и стремятся залочить все на себя. Простыми словами - они поддерживают интересы агрессивного капитала и долгосрочно античеловечны;

(4) Вставить нужную статистику про уголовные сроки за репост и палочную систему;

Мне лично было достаточно и части из этих пунктов, чтобы перестать пользоваться социальными сетями в районе 2015 года.

Ответить
Развернуть ветку
5 комментариев
Game Topia

Я бы испугался пользоваться подобным сервисом с реальной почтой. Да и к почте за результатом потом только через api обращаться чтобы исключить ловушки.

Ответить
Развернуть ветку
Alexander Veysov
Автор

Никто не заставляет использовать прямо реальную почту.

Мы долго думали какой минимальный набор мер надо принять, чтобы архитектурно пресечь спам и DDOS, и использование email, к сожалению, показалось нам неизбежным.

Ответить
Развернуть ветку
9 комментариев
Pasha Kislova

На самом деле найти транскрабатор реальная проблема. В формате:наговорил-получил doc файл.
Пользуюсь периодически бесплвтными конверторами. Коробит? Да, коробит. Но пользуюсь. Мне не хватает транскрибатора формата : наговорил - получил файл.

Ответить
Развернуть ветку
Тайный агент

Я могу сделать что нужно. Мне это даже в удовольствие!

Ответить
Развернуть ветку
3 комментария
7219132

Сделать бы из этого мобильное приложение с диктофоном и целы бы не было, как otter.ai

Ответить
Развернуть ветку
Alexander Veysov
Автор

Кстати, а otter.ai работает без облака на девайсе? Конкурировать в апп-сторе с компаниями с US$100m долларов инвестиций это довольно бессмысленная затея, как мне кажется.

Ответить
Развернуть ветку
3 комментария
Pasha Kislova

Вам, как я понял нужно файл заливать. Я же хочу сразу наговорить. Может телегобот такой есть?

Ответить
Развернуть ветку
Alexander Veysov
Автор

В телеге боты действительно есть, но не у всех есть телега.

И нам не совсем понятно было как в телеге "ботов" отличать от людей, там сейчас волна спама пошла. Хотя телега по идее требует регистрации по номеру телефона, но скамеров это не останавливает.

Мы постарались найти наименьший общий делитель - имейл.

Вообще если сервис будет популярен, то может рано или поздно мы сделаем бота в телеге и как-то его подвяжем.

Ответить
Развернуть ветку
8 комментариев
Angel Vivaldi

Незрелость автора и его неумение принимать критику летя с шашкой на гало с минусами смешит. Уважаемый разработчик, с таким подходом вы никогда не сделаете нормальный сервис, потому что сервис это в первую очередь общение с клиентами и принятие критики, одному не нравится тут, другому в ином месте (:

Ответить
Развернуть ветку
Роман Рабочий

Ну он по крайней мере что то делает, и его продукт довольно серьезная штука.
Написать статью здесь и работать с комментариями, это не просто.
Пробовали?
С первого раза все круто получилось?

Ответить
Развернуть ветку
10 комментариев
Alex Sedoff

надеюсь фри так и останется в этих пределах, вещь нужная, респект

Ответить
Развернуть ветку
Alexander Veysov
Автор

Ну тут скорее вопрос к комьюнити будут ли пользоваться. Все в руках людей.

Ответить
Развернуть ветку
4 комментария
Сергей Багрецов

Это ручная транскрибация, или автоматическая?

Ответить
Развернуть ветку
Alexander Veysov
Автор

Автоматическая

Ответить
Развернуть ветку
Роман Рабочий

Украинский пробовали? Я тут как раз немножечко страдаю от нормального распознавания UA

Ответить
Развернуть ветку
Alexander Veysov
Автор

Мы делали микро-модель для украинского чатика, который собрал датасет.
Лежит в silero-models - https://github.com/snakers4/silero-models

Ответить
Развернуть ветку
Alexander Veysov
Автор

Ну тут скорее вопрос к комьюнити будут ли пользоваться. Все в руках людей.

Ответить
Развернуть ветку
S.Z

Идеальный вариант для меня был бы:

Приложение-диктофон, которое после конца записи расшифровывает сказанное и различает говорящих: Голос 1, Голос 2 и т.д

Ответить
Развернуть ветку
Alexander Veysov
Автор

Планы на диаризацию и определения числа говорящих у нас есть.
Но пока судя по тому же опросу на хабре сначала надо решить вопрос пукнтуации:

Ответить
Развернуть ветку
Женя Гагарин

А вы знали что языки и государства связаны довольно слабо ?

Русскоязычных людей около 300млн и живут в США и Европе и по всему миру.
Тоже самое с испанским языком.

Актуально к японскому только.

Некорректное использование флагов государств.

Ответить
Развернуть ветку
Александр Трофимов

А что только тут об этом написал? Иди пиши на емейлы всех игроделов года с 1995, которые использовали флаги даже без подписи для обозначения языка. Помню в worms armageddon точно так было. Иди к team17 с такой предъявой

Ответить
Развернуть ветку
Alexander Veysov
Автор

С одной стороны это действительно так, вы не открываете Америку. А с другой стороны все настолько перемешалось, что большая часть стран уже давно не имеет ярко выраженных национальностей и язык скорее является неким социо-культурным центром тяготения.

У нас конечно не так, как в странах ЮВА, где бывает зачастую, что в стране 3 примерно равных языка. Но дедушка Ленин постарался, и мы уже давно и плотно живем в плавильном котле, какие бы центробежные силы не утверждали обратное.

Поэтому флаги в данном случае - это символы и все понимают и принимают, что это флаг страны "прародителя" языка.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Михаил Лабинцев

Интересно. Неплохо бы было сделать бота для телеги, а то Voicy пока как-то плохо распознаёт. Заодно бы и сравнили кто лучше :)

Ответить
Развернуть ветку
84 комментария
Раскрывать всегда