реклама
разместить

Бесплатное распознавание речи для всех желающих

Бесплатное распознавание речи для всех желающих

Бесплатное распознавание речи для всех желающих

После относительно недавнего релиза мы сделали наше распознавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.

Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:

  • Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
  • Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
  • Да, этот сервис будет бесплатным.
  • Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).

Как Пользоваться

Инструкция простая до банальности:

  • зайти на страничку,
  • опционально попробовать демку с микрофоном,
  • залить свой файл в формочку,
  • получить распозанный файл на email.

По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.

Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.

Идея Сервиса

Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:

  • Есть решения, требующие регистрации, оплаты, создания личного кабинета.
  • Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
  • Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.

Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.

Текущие Ограничения

У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:

  • Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
  • Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
  • Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
  • Чем лучше качество исходного аудио, тем лучше качество транскрибации.
  • На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
  • Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.

Безопасность и Использование Данных

Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.

Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.

5959
реклама
разместить
80 комментариев

Очень нужная штука. Вы молодцы. Мне такое часто нужно. Надиктовал в дороге мысли или часть ТЗ и сразу в текст, потом в файл.
Я уверен у вас будет успех, подход правильный, покажите что вы умеете, дообучите модель под тихих и Картавых и можете встраивать в другие приложения.
Публикуйте эту статью на других ресурсах.

11

Комментарий недоступен

6

Уже на Хабре есть - https://habr.com/ru/post/587512/
Где еще опубликовать - не знаю, буду рад за подсказку

2

Вы пишете: "Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа)"
Есть: VK. Сам себе записываешь голосовое сообщение и там же в текст конвертится.
Но где лучше не берусь утверждать, т.к. пользовался только VK - мне хватает короткие путевые заметки делать.
Но Вам спасибо за бесплатный сервис и удачи в деле :)!

5

Тут много противоречивых философских, идеологических и технологических моментов. Давайте по пунктам:

(0) Продуктовый момент - мы специально работаем и будем улучшать работу именно с длинными файлами. ВК скорее всего будет фокусироваться на коротких;

(1) У меня нет аккаунта ВК (я вообще считаю, что каждый уважающий себя человек, не должен сидеть в этих маркетинговых помойках - есть мессенджеры же);

(2) Недавние события показывают что соцсети стремятся к абсолютному злу. А у нас еще это конгломерат, созданный понятно кем на основе враждебного поглощения. Короче все претензии к FB + русские олигархи + mail.ru;

(3) Соцсети не поддерживают основные принципы интернета - заменимость и открытость и стремятся залочить все на себя. Простыми словами - они поддерживают интересы агрессивного капитала и долгосрочно античеловечны;

(4) Вставить нужную статистику про уголовные сроки за репост и палочную систему;

Мне лично было достаточно и части из этих пунктов, чтобы перестать пользоваться социальными сетями в районе 2015 года.

5

Комментарий недоступен

3
Раскрывать всегда
Сбой у Системы быстрых платежей — СБП-переводы не работают у крупнейших банков

Среди них «Яндекс», «Т-Банк», «Альфа-банк», ВТБ и другие.

Сбой у Системы быстрых платежей — СБП-переводы не работают у крупнейших банков
200
1818
66
11
Вот так чуть не пришлось натурой за такси сейчас оплачивать. Хорошо, что наличка нашлась.
реклама
разместить
День 1127: дилеры начали предлагать скидки до 1 млн рублей на китайские машины из-за затоваривания складов

Собираем новости, события и мнения о рынках, банках и реакциях компаний.

Фото ТАСС
4141
55
Какая скидка... В здравом уме это г@вно никто не возьмет. Если б ввели акцию "миллион тому, кто заберет машину со склада", тогда еще можно было бы подумать.
Из скетча в продакшн за 10 минут

Короче, я часто когда о чем-то думаю — рисую. Вот так у меня устроенно, что мне легче думается так когда я рисую. В итоге, я вчера нарисовал этого пацана, пока думал в офисе. Сейчас мне пришла в голову идея закинуть его в ChatGPT и с новой моделью сгенерировать его в стиле мультика Pixar. И это пушка! А самая лакома — теперь это можно еще и зааними…

Из скетча в продакшн за 10 минут
«Яндекс Go» добавит оплату проезда в общественном транспорте

«В течение двух недель» функция заработает в Ярославле, а позже и в других городах.

Источник фото: «Яндекс Go»
88
11
Я пришёл в IT с горящими глазами, но за 6 лет превратился в бездумного исполнителя

Ненавидеть свою работу я начал на третий год. Тот самый момент, когда тебя уже не хвалят за свежий взгляд, а начинают душить регламентами и бессмысленными правками.

Я пришёл в IT с горящими глазами, но за 6 лет превратился в бездумного исполнителя
1818
11
11
Сервис с ИИ-персонажами Character AI добавил функцию, которая покажет родителям, с какими ботами общается их ребёнок

Речь о несовершеннолетних пользователях.

Интерфейс Character AI
33
Дизайн-проект загородного дома в светлых оттенках в коттеджном поселке «Раздолье» в ЛО

Дизайн-проект загородного дома в коттеджном поселке «Раздолье» в Ленинградской области разработан для семьи с двумя детьми, ценящей эстетику и функциональность. Важно было продумать все до мелочей: эргономичную планировку, высококачественные материалы, визуально легкий стиль, не перегруженный декором. Интерьер дополняют арт-объекты, рельефные панно…

Дизайн-проект коттеджа в поселке  «Раздолье», прихожая с арт-объектами от студии Artum.
Переехал в Израиль и открыл там агентство по репатриации. 2,5 млн рублей на русских мигрантах

Захотелось в жизни перемен, всё бросил и уехал в Израиль. Открыл бизнес, теперь помогаю переезжать таким же непоседам.

Переехал в Израиль и открыл там агентство по репатриации. 2,5 млн рублей на русских мигрантах
66
66
22
11
Почему закрываются кофейни: 5 ключевых ошибок, которые губят даже «самый лучший кофе»

Многие города сталкиваются с волной закрытия кофеен. При этом владельцы часто винят кризис, высокую аренду или конкуренцию. Однако проблема глубже: предприниматели нередко сами роют яму своему бизнесу, надеясь на авось. Почему даже заведения с «ручной работой» и «индивидуальными стаканчиками» терпят крах? Разбираю ключевые ошибки.

Почему закрываются кофейни: 5 ключевых ошибок, которые губят даже «самый лучший кофе»
33
22
11
реклама
разместить
Почему реклама в Telegram Ads не приносит подписчиков? 3 главных ошибки, из-за которых сливают бюджет

Вы открываете кабинет Telegram Ads. Заливаете бюджет, настраиваете рекламную кампанию, ожидаете прирост подписчиков, но ничего не происходит. Кликов много, а подписок «кот наплакал».

Почему реклама в Telegram Ads не приносит подписчиков? 3 главных ошибки, из-за которых сливают бюджет
66
Блогеры начнут брать деньги по серым схемам, большинство перейдёт в Telegram: участники рынка — о том, к чему приведёт запрет рекламы в Instagram*
2727
55
22
11
Потихоньку превращаемся в Северную Корею 😄🇰🇵
OpenAI добавила в GPT‑4o «свой самый продвинутый» генератор изображений

Пользователи смогут создавать не только красивые, но и «практичные» картинки вроде графиков и плакатов, считает компания.

Источник здесь и далее: OpenAI
2222
44
11
[]