4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023
В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сра��нения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой
Оглавление
Как мы считали точность распознавания
Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.
Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.
Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:
- стоимость за минуту расшифровки,
- скорости обработки на примере часовой записи,
- наличие функции разбивки текста по спикерам,
- наличие встроенного редактора и его функциональность,
- возможность экспорта текста
1. Teamlogs.ru
Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.
Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.
Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.
Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.
Результат теста:
Частота ошибок в словах: 5.31%
Скорости обработки на примере часовой записи: 6 минут
Наличие функции разбивки текста по спикерам: да
Наличие встроенного редактора: да, с функцией прослушивания аудио
Экспорт: *.docx, *.xlsx, *.srt
На что стоит обратить внимание:
Максимальный размер файла 800 мб
Аудиодорожка в редакторе хранится 30 дней
Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.
После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.
Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.
Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt
Результат теста:
- Частота ошибок в словах: 23.79%
- Скорости обработки на примере часовой записи: 20 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.srt, *.vtt
На что стоит обратить внимание:
- Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
- Максимальный длительность файла 180 минут
3. APIHOST
Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.
По скорости расшифровки: первая загрузка файла завершилась неудачей, серви�� не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.
Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.
Результат теста:
Частота ошибок в словах: 15.68%
Скорости обработки на примере часовой записи: 6 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: отсутствует
- Экспорт: *.txt, *.doc
На что стоит обратить внимание:
- Максимальный размер файла 200 мб
- Минимальная сумма пополнения от 500 рублей
Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.
Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.
Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.
Результат теста:
- Частота ошибок в словах: 15.12%
- Скорости обработки на примере часовой записи: 15 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.txt
На что стоит обратить внимание:
- Перед загрузкой файла необходимо зарегистрироваться и пополнить счет
Итог
Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.
Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу
Я приехала в Португалию с маленьким чемоданчиком в отпуск, а осталась навсегда. Теперь у меня дома зимой +10°C, а летом я собираю апельсины в саду. В статье расскажу, как искала дом среди руин, как я открыла счёт в банке вопреки запретам, сколько я потратила на ремонт и сколько стоит жизнь в деревне из 22 человек.
Привет! Меня зовут Елена - я комплексный таргетолог ВКонтакте, работаю в связке таргета и маркетинга, что позволяет привести человека "за ручку" к покупке.
Тарифы начнут действовать с 5 апреля 2025 года для 185 стран и территорий, за исключением России, Беларуси, Кубы и Северной Кореи.
Не наводи порядок в том, от чего нужно избавиться. Про бесконечные списки задач, фокусировку и "У меня все задачи важные"
Мы пригласили психолога, чтобы понять, почему иногда страшно начинать новое.
Сделал идеальный структурный сайт, которая приносит 10-20% конверсии из трафика - у меня его скопировали 1 в 1 и подали в суд за авторство. Пожалуй, такая структура позволит оставаться на коне в любой нише в 2025 году - забирайте, только в суд не подавайте!
Вот чумовая штука, расшифровывает, делит на спикеров, качество топ, работает бесплатно, enjoy:
https://clck.ru/35Nttu
Перепробовала несколько разных сервисов для расшифровке, но сейчас использую телеграм-бота @mediavtextbot - качество отлично, принимает аудио и видео, понимает много языков, стоит меньше рубля за минуту, пополнить счет можно на любую сумму, создает субтитры, разделяет по голосам, выдает в разных форматах - все что нужно и за адекватные деньги.
Использую бесплатно вот такую штуку для расшифровки своих подкастов и доволен как слон – https://colab.research.google.com/github/karray/speech-recognition-and-diarization/blob/main/diar_speech.ipynb
(там написано, как применять, но если будут вопросы, пишите в комменты)
Распознавание спикеров позволяет быстро делать тайм-коды для подкаста. Это вообще кайф, минут 15 уходит вместо часа прослушивания выпуска.
P.S. Спасибо админам тг-канала https://t.me/nn_for_science, которые эту штуку запилили.
Ничосе...
А чо так можно было?
Долго распознает часовое интервью?
На процессе выдает ошибку. Может что упустил. Написал сообщение.