Бесплатное распознавание речи для всех желающих
Бесплатное распознавание речи для всех желающих
После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.
Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:
- Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
- Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
- Да, этот сервис будет бесплатным.
- Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).
Как Пользоваться
Инструкция простая до банальности:
- зайти на страничку,
- опционально попробовать демку с микрофоном,
- залить свой файл в формочку,
- получить распозанный файл на email.
По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.
Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.
Идея Сервиса
Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:
- Есть решения, требующие регистрации, оплаты, создания личного кабинета.
- Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
- Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.
Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.
Текущие Ограничения
У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:
- Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
- Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
- Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
- Чем лучше качество исходного аудио, тем лучше качество транскрибации.
- На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
- Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.
Безопасность и Использование Данных
Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.
Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.
Очень нужная штука. Вы молодцы. Мне такое часто нужно. Надиктовал в дороге мысли или часть ТЗ и сразу в текст, потом в файл.
Я уверен у вас будет успех, подход правильный, покажите что вы умеете, дообучите модель под тихих и Картавых и можете встраивать в другие приложения.
Публикуйте эту статью на других ресурсах.
Комментарий недоступен
Уже на Хабре есть - https://habr.com/ru/post/587512/
Где еще опубликовать - не знаю, буду рад за подсказку
Возможность делать работу когда заняты руки чем то другим, это может помочь многим...
Вы пишете: "Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа)"
Есть: VK. Сам себе записываешь голосовое сообщение и там же в текст конвертится.
Но где лучше не берусь утверждать, т.к. пользовался только VK - мне хватает короткие путевые заметки делать.
Но Вам спасибо за бесплатный сервис и удачи в деле :)!
Тут много противоречивых философских, идеологических и технологических моментов. Давайте по пунктам:
(0) Продуктовый момент - мы специально работаем и будем улучшать работу именно с длинными файлами. ВК скорее всего будет фокусироваться на коротких;
(1) У меня нет аккаунта ВК (я вообще считаю, что каждый уважающий себя человек, не должен сидеть в этих маркетинговых помойках - есть мессенджеры же);
(2) Недавние события показывают что соцсети стремятся к абсолютному злу. А у нас еще это конгломерат, созданный понятно кем на основе враждебного поглощения. Короче все претензии к FB + русские олигархи + mail.ru;
(3) Соцсети не поддерживают основные принципы интернета - заменимость и открытость и стремятся залочить все на себя. Простыми словами - они поддерживают интересы агрессивного капитала и долгосрочно античеловечны;
(4) Вставить нужную статистику про уголовные сроки за репост и палочную систему;
Мне лично было достаточно и части из этих пунктов, чтобы перестать пользоваться социальными сетями в районе 2015 года.
Комментарий недоступен
Никто не заставляет использовать прямо реальную почту.
Мы долго думали какой минимальный набор мер надо принять, чтобы архитектурно пресечь спам и DDOS, и использование email, к сожалению, показалось нам неизбежным.
На самом деле найти транскрабатор реальная проблема. В формате:наговорил-получил doc файл.
Пользуюсь периодически бесплвтными конверторами. Коробит? Да, коробит. Но пользуюсь. Мне не хватает транскрибатора формата : наговорил - получил файл.
Я могу сделать что нужно. Мне это даже в удовольствие!
Сделать бы из этого мобильное приложение с диктофоном и целы бы не было, как otter.ai
Кстати, а otter.ai работает без облака на девайсе? Конкурировать в апп-сторе с компаниями с US$100m долларов инвестиций это довольно бессмысленная затея, как мне кажется.
Вам, как я понял нужно файл заливать. Я же хочу сразу наговорить. Может телегобот такой есть?
В телеге боты действительно есть, но не у всех есть телега.
И нам не совсем понятно было как в телеге "ботов" отличать от людей, там сейчас волна спама пошла. Хотя телега по идее требует регистрации по номеру телефона, но скамеров это не останавливает.
Мы постарались найти наименьший общий делитель - имейл.
Вообще если сервис будет популярен, то может рано или поздно мы сделаем бота в телеге и как-то его подвяжем.
Незрелость автора и его неумение принимать критику летя с шашкой на гало с минусами смешит. Уважаемый разработчик, с таким подходом вы никогда не сделаете нормальный сервис, потому что сервис это в первую очередь общение с клиентами и принятие критики, одному не нравится тут, другому в ином месте (:
Ну он по крайней мере что то делает, и его продукт довольно серьезная штука.
Написать статью здесь и работать с комментариями, это не просто.
Пробовали?
С первого раза все круто получилось?
надеюсь фри так и останется в этих пределах, вещь нужная, респект
Ну тут скорее вопрос к комьюнити будут ли пользоваться. Все в руках людей.
Это ручная транскрибация, или автоматическая?
Автоматическая
Украинский пробовали? Я тут как раз немножечко страдаю от нормального распознавания UA
Мы делали микро-модель для украинского чатика, который собрал датасет.
Лежит в silero-models - https://github.com/snakers4/silero-models
Ну тут скорее вопрос к комьюнити будут ли пользоваться. Все в руках людей.
Идеальный вариант для меня был бы:
Приложение-диктофон, которое после конца записи расшифровывает сказанное и различает говорящих: Голос 1, Голос 2 и т.д
Планы на диаризацию и определения числа говорящих у нас есть.
Но пока судя по тому же опросу на хабре сначала надо решить вопрос пукнтуации:
А вы знали что языки и государства связаны довольно слабо ?
Русскоязычных людей около 300млн и живут в США и Европе и по всему миру.
Тоже самое с испанским языком.
Актуально к японскому только.
Некорректное использование флагов государств.
А что только тут об этом написал? Иди пиши на емейлы всех игроделов года с 1995, которые использовали флаги даже без подписи для обозначения языка. Помню в worms armageddon точно так было. Иди к team17 с такой предъявой
С одной стороны это действительно так, вы не открываете Америку. А с другой стороны все настолько перемешалось, что большая часть стран уже давно не имеет ярко выраженных национальностей и язык скорее является неким социо-культурным центром тяготения.
У нас конечно не так, как в странах ЮВА, где бывает зачастую, что в стране 3 примерно равных языка. Но дедушка Ленин постарался, и мы уже давно и плотно живем в плавильном котле, какие бы центробежные силы не утверждали обратное.
Поэтому флаги в данном случае - это символы и все понимают и принимают, что это флаг страны "прародителя" языка.
Комментарий удален модератором
Комментарий недоступен
Интересно. Неплохо бы было сделать бота для телеги, а то Voicy пока как-то плохо распознаёт. Заодно бы и сравнили кто лучше :)