Полёт над полюсами Земли
Runway vs. Higgsfield
Секрет быстрых дейликов
Предок электроса-моката
Ламба из картона
Японская робозмея
Робот-погрузчик

4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023

В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сра��нения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой

Оглавление

Как мы считали точность распознавания

Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.

Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.

Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:

  • стоимость за минуту расшифровки,
  • скорости обработки на примере часовой записи,
  • наличие функции разбивки текста по спикерам,
  • наличие встроенного редактора и его функциональность,
  • возможность экспорта текста
скриншот главной страницы teamlogs.ru
скриншот главной страницы teamlogs.ru

Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.

Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.

Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.

Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.

скриншот окна с результатом распознавания, teamlogs.ru
скриншот окна с результатом распознавания, teamlogs.ru

Результат теста:

  • Частота ошибок в словах: 5.31%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: да

  • Наличие встроенного редактора: да, с функцией прослушивания аудио

  • Экспорт: *.docx, *.xlsx, *.srt

На что стоит обратить внимание:

  • Максимальный размер файла 800 мб

  • Аудиодорожка в редакторе хранится 30 дней

скриншот главной страницы realspeaker.net
скриншот главной страницы realspeaker.net

Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.

После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.

скриншот окна с результатом распознавания, realspeaker.net
скриншот окна с результатом распознавания, realspeaker.net

Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.

Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt

Результат теста:

  • Частота ошибок в словах: 23.79%
  • Скорости обработки на примере часовой записи: 20 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.srt, *.vtt

На что стоит обратить внимание:

  • Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
  • Максимальный длительность файла 180 минут
скриншот страницы apihost.ru/speech-to-text
скриншот страницы apihost.ru/speech-to-text

Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.

По скорости расшифровки: первая загрузка файла завершилась неудачей, серви�� не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.

скриншот окна с результатом распознавания, apihost.ru/speech-to-text
скриншот окна с результатом распознавания, apihost.ru/speech-to-text

Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.

Результат теста:

  • Частота ошибок в словах: 15.68%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: отсутствует
  • Экспорт: *.txt, *.doc

На что стоит обратить внимание:

  • Максимальный размер файла 200 мб
  • Минимальная сумма пополнения от 500 рублей
скриншот главной страницы speechtotext.ru
скриншот главной страницы speechtotext.ru

Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.

Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.

Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.

скриншот окна с результатом распознавания, Speechtotext.ru
скриншот окна с результатом распознавания, Speechtotext.ru

Результат теста:

  • Частота ошибок в словах: 15.12%
  • Скорости обработки на примере часовой записи: 15 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.txt

На что стоит обратить внимание:

  • Перед загрузкой файла необходимо зарегистрироваться и пополнить счет

Итог

Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.

Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу

Таблица сравнения сервисов онлайн-транскрибации на русском языке 2023
Таблица сравнения сервисов онлайн-транскрибации на русском языке 2023
5050
реклама
разместить
65 комментариев
100 ₽

Вот чумовая штука, расшифровывает, делит на спикеров, качество топ, работает бесплатно, enjoy:
https://clck.ru/35Nttu

5

Перепробовала несколько разных сервисов для расшифровке, но сейчас использую телеграм-бота @mediavtextbot - качество отлично, принимает аудио и видео, понимает много языков, стоит меньше рубля за минуту, пополнить счет можно на любую сумму, создает субтитры, разделяет по голосам, выдает в разных форматах - все что нужно и за адекватные деньги.

12
1

Использую бесплатно вот такую штуку для расшифровки своих подкастов и доволен как слон – https://colab.research.google.com/github/karray/speech-recognition-and-diarization/blob/main/diar_speech.ipynb

(там написано, как применять, но если будут вопросы, пишите в комменты)

Распознавание спикеров позволяет быстро делать тайм-коды для подкаста. Это вообще кайф, минут 15 уходит вместо часа прослушивания выпуска.

P.S. Спасибо админам тг-канала https://t.me/nn_for_science, которые эту штуку запилили.

9

Ничосе...
А чо так можно было?

Долго распознает часовое интервью?

На процессе выдает ошибку. Может что упустил. Написал сообщение.

Раскрывать всегда
Я продала дом в Сибири и купила дом в Португалии за 5 млн ₽. Мёрзну, но не жалею

Я приехала в Португалию с маленьким чемоданчиком в отпуск, а осталась навсегда. Теперь у меня дома зимой +10°C, а летом я собираю апельсины в саду. В статье расскажу, как искала дом среди руин, как я открыла счёт в банке вопреки запретам, сколько я потратила на ремонт и сколько стоит жизнь в деревне из 22 человек.

Я продала дом в Сибири и купила дом в Португалии за 5 млн ₽. Мёрзну, но не жалею
5858
66
33
22
22
11
вот кстати выскажу мысль. на удивление война явно способствует разрастанию "русского мира", только конечно совсем другим способом. все самые способные, талантливые и просто с бОльшим средним IQ люди разъезжаются по миру, покупают дома, оседают, пьют вино с местными, заводят с ними потомство, расселяют и оздоравливают свои гены. к сожалению на родине при этом происходит противоположный процесс.
реклама
разместить
«Яндекс» запустил «Нейроэксперта» — сервис для работы с документами, презентациями и ссылками

Он создаст из загруженных материалов базу знаний и поможет найти в ней ответ на вопрос.

Источник фото: «Яндекс»
1818
55
11
С нетерпением ждём первое нейро-уголовное дело от товарища майора!
Как с помощью таргета ВК привлечь клиентов на кастомные тоннели и снизить стоимость заявки в 2 раза

Привет! Меня зовут Елена - я комплексный таргетолог ВКонтакте, работаю в связке таргета и маркетинга, что позволяет привести человека "за ручку" к покупке.

44
«Глобальная тарифная война»: Дональд Трамп подписал указ о повышении пошлин на ввозимые в США товары — мировые лидеры предупредили об ответных мерах

Тарифы начнут действовать с 5 апреля 2025 года для 185 стран и территорий, за исключением России, Беларуси, Кубы и Северной Кореи.

Фото Reuters
1717
55
44
11
11
11
11
Американцы наверное будут рады заплатить за импортные товары на 10-70% больше
Концепция личной (не)эффективности

Не наводи порядок в том, от чего нужно избавиться. Про бесконечные списки задач, фокусировку и "У меня все задачи важные"

Концепция личной (не)эффективности
1919
88
11
11
Как справиться со страхом начать обучение

Мы пригласили психолога, чтобы понять, почему иногда страшно начинать новое.

Как справиться со страхом начать обучение
3434
Аяз Шабутдинов признал вину в мошенничестве — но пока не в суде

Он сообщил об этом в своём Telegram-канале.

Источник: Telegram-канал Аяза Шабутдинова
2727
1818
66
55
22
11
Парни вы издеваетесь ?
Как я сделал сайт, который привел 2 126 заявок за 3 месяца. А у меня его украли, так еще и подали в суд за авторство...

Сделал идеальный структурный сайт, которая приносит 10-20% конверсии из трафика - у меня его скопировали 1 в 1 и подали в суд за авторство. Пожалуй, такая структура позволит оставаться на коне в любой нише в 2025 году - забирайте, только в суд не подавайте!

Как я сделал сайт, который привел 2 126 заявок за 3 месяца. А у меня его украли, так еще и подали в суд за авторство...
88
22
11
80 нейросетей, которые помогут тебе разобраться в теме и проанализируют десятки источников. Залил в одну табличку + краткое описание — эпичная подборка
80 нейросетей, которые помогут тебе разобраться в теме и проанализируют десятки источников. Залил в одну табличку + краткое описание — эпичная подборка
139139
66
44
44
Мне нужна нейросеть чтобы разобраться в подборке из 80 нейросетей