4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023
В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сравнения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой
Оглавление
Как мы считали точность распознавания
Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.
Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.
Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:
- стоимость за минуту расшифровки,
- скорости обработки на примере часовой записи,
- наличие функции разбивки текста по спикерам,
- наличие встроенного редактора и его функциональность,
- возможность экспорта текста
1. Teamlogs.ru
Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.
Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.
Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.
Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.
Результат теста:
Частота ошибок в словах: 5.31%
Скорости обработки на примере часовой записи: 6 минут
Наличие функции разбивки текста по спикерам: да
Наличие встроенного редактора: да, с функцией прослушивания аудио
Экспорт: *.docx, *.xlsx, *.srt
На что стоит обратить внимание:
Максимальный размер файла 800 мб
Аудиодорожка в редакторе хранится 30 дней
Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.
После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.
Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.
Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt
Результат теста:
- Частота ошибок в словах: 23.79%
- Скорости обработки на примере часовой записи: 20 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.srt, *.vtt
На что стоит обратить внимание:
- Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
- Максимальный длительность файла 180 минут
3. APIHOST
Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.
По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.
Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.
Результат теста:
Частота ошибок в словах: 15.68%
Скорости обработки на примере часовой записи: 6 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: отсутствует
- Экспорт: *.txt, *.doc
На что стоит обратить внимание:
- Максимальный размер файла 200 мб
- Минимальная сумма пополнения от 500 рублей
Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.
Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.
Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.
Результат теста:
- Частота ошибок в словах: 15.12%
- Скорости обработки на примере часовой записи: 15 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.txt
На что стоит обратить внимание:
- Перед загрузкой файла необходимо зарегистрироваться и пополнить счет
Итог
Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.
Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу