{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023

В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сравнения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой

Оглавление

Как мы считали точность распознавания

Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.

Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.

Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:

  • стоимость за минуту расшифровки,
  • скорости обработки на примере часовой записи,
  • наличие функции разбивки текста по спикерам,
  • наличие встроенного редактора и его функциональность,
  • возможность экспорта текста

скриншот главной страницы teamlogs.ru

Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.

Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.

Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.

Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.

скриншот окна с результатом распознавания, teamlogs.ru

Результат теста:

  • Частота ошибок в словах: 5.31%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: да

  • Наличие встроенного редактора: да, с функцией прослушивания аудио

  • Экспорт: *.docx, *.xlsx, *.srt

На что стоит обратить внимание:

  • Максимальный размер файла 800 мб

  • Аудиодорожка в редакторе хранится 30 дней

скриншот главной страницы realspeaker.net

Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.

После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.

скриншот окна с результатом распознавания, realspeaker.net

Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.

Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt

Результат теста:

  • Частота ошибок в словах: 23.79%
  • Скорости обработки на примере часовой записи: 20 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.srt, *.vtt

На что стоит обратить внимание:

  • Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
  • Максимальный длительность файла 180 минут

3. APIHOST

скриншот страницы apihost.ru/speech-to-text

Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.

По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.

скриншот окна с результатом распознавания, apihost.ru/speech-to-text

Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.

Результат теста:

  • Частота ошибок в словах: 15.68%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: отсутствует
  • Экспорт: *.txt, *.doc

На что стоит обратить внимание:

  • Максимальный размер файла 200 мб
  • Минимальная сумма пополнения от 500 рублей

скриншот главной страницы speechtotext.ru

Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.

Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.

Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.

скриншот окна с результатом распознавания, Speechtotext.ru

Результат теста:

  • Частота ошибок в словах: 15.12%
  • Скорости обработки на примере часовой записи: 15 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.txt

На что стоит обратить внимание:

  • Перед загрузкой файла необходимо зарегистрироваться и пополнить счет

Итог

Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.

Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу

Таблица сравнения сервисов онлайн-транскрибации на русском языке 2023
0
66 комментариев
Написать комментарий...
Дмитрий Беговатов

Использую бесплатно вот такую штуку для расшифровки своих подкастов и доволен как слон – https://colab.research.google.com/github/karray/speech-recognition-and-diarization/blob/main/diar_speech.ipynb

(там написано, как применять, но если будут вопросы, пишите в комменты)

Распознавание спикеров позволяет быстро делать тайм-коды для подкаста. Это вообще кайф, минут 15 уходит вместо часа прослушивания выпуска.

P.S. Спасибо админам тг-канала https://t.me/nn_for_science, которые эту штуку запилили.

Ответить
Развернуть ветку
Владимир Власенко

На процессе выдает ошибку. Может что упустил. Написал сообщение.

Ответить
Развернуть ветку
Saprik

Мне помогла замена версии pyannote на 2.1 в методе Pipeline.from_pretrained

Ответить
Развернуть ветку
Роман Рабочий

о, спасибо...

Ответить
Развернуть ветку
Saprik

ну и токен поставил

Ответить
Развернуть ветку
Владимир Власенко

"Помогло", процессинг выполнил, но результат не вижу

Ответить
Развернуть ветку
Владимир Власенко

Нет, поспешил, не помогло

Ответить
Развернуть ветку
Saprik

Какую ошибку выдал?

Ответить
Развернуть ветку
Владимир Власенко
Ответить
Развернуть ветку
Eugene Verbitskiy

А вы смогли решить эту проблему?

Ответить
Развернуть ветку
63 комментария
Раскрывать всегда