4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023
В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сравнения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой
Оглавление
Как мы считали точность распознавания
Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.
Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.
Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:
- стоимость за минуту расшифровки,
- скорости обработки на примере часовой записи,
- наличие функции разбивки текста по спикерам,
- наличие встроенного редактора и его функциональность,
- возможность экспорта текста
1. Teamlogs.ru
Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.
Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.
Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.
Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.
Результат теста:
Частота ошибок в словах: 5.31%
Скорости обработки на примере часовой записи: 6 минут
Наличие функции разбивки текста по спикерам: да
Наличие встроенного редактора: да, с функцией прослушивания аудио
Экспорт: *.docx, *.xlsx, *.srt
На что стоит обратить внимание:
Максимальный размер файла 800 мб
Аудиодорожка в редакторе хранится 30 дней
Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.
После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.
Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.
Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt
Результат теста:
- Частота ошибок в словах: 23.79%
- Скорости обработки на примере часовой записи: 20 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.srt, *.vtt
На что стоит обратить внимание:
- Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
- Максимальный длительность файла 180 минут
3. APIHOST
Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.
По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.
Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.
Результат теста:
Частота ошибок в словах: 15.68%
Скорости обработки на примере часовой записи: 6 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: отсутствует
- Экспорт: *.txt, *.doc
На что стоит обратить внимание:
- Максимальный размер файла 200 мб
- Минимальная сумма пополнения от 500 рублей
Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.
Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.
Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.
Результат теста:
- Частота ошибок в словах: 15.12%
- Скорости обработки на примере часовой записи: 15 минут
- Наличие функции разбивки текста по спикерам: отсутствует
- Наличие встроенного редактора: есть, без прослушивания
- Экспорт: *.txt
На что стоит обратить внимание:
- Перед загрузкой файла необходимо зарегистрироваться и пополнить счет
Итог
Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.
Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу
Использую бесплатно вот такую штуку для расшифровки своих подкастов и доволен как слон – https://colab.research.google.com/github/karray/speech-recognition-and-diarization/blob/main/diar_speech.ipynb
(там написано, как применять, но если будут вопросы, пишите в комменты)
Распознавание спикеров позволяет быстро делать тайм-коды для подкаста. Это вообще кайф, минут 15 уходит вместо часа прослушивания выпуска.
P.S. Спасибо админам тг-канала https://t.me/nn_for_science, которые эту штуку запилили.
Ничосе...
А чо так можно было?
Долго распознает часовое интервью?
На процессе выдает ошибку. Может что упустил. Написал сообщение.
Дмитрий, здравствуйте, пытаюсь юзать вашу "штуку", но почему-то на уровне подгрузки файла не работает...загружаю, но upload (0)
как использовать? Непонятно
Добрый день. Помогите начать пользоваться данным сервисом. Я установил нажав на значок "Play" в пункте Setup. Сейчас не могу разобраться как добавить аудиофайл для транскрибации.
Вот чумовая штука, расшифровывает, делит на спикеров, качество топ, работает бесплатно, enjoy:
https://clck.ru/35Nttu
СПАСИБО! ПОЛЬЗУЮСЬ ТИМЛОГС ДЛЯ РАСШИФРОВКИ ГОЛОСОВЫХ ЕВГЕНИЯ ВИКТОРОВИЧА
Ого!
Очень полезно!
А как выбрать, какой лучше?
тут уже самостоятельно, но лучше ориентироваться на качество распознавания
считалочкой посчитать)
Больше пяти лет занимаюсь расшифровкой. Если тезисно:
1. Бесплатные распознавалки не справляются со своей задачей. Трата времени.
2. После распознавалок требуется серьезная коррекция, даже если сервис платный.
3. Лучший из платных распознавалок - Trint.
4. Teamlogs имеют красивый сайт и эффективный маркетинг, но вряд ли сами пользуются своим сервисом.
5. Обращайтесь к фрилансерам с хорошими отзывами, ищите на YouDo, FL и Kwork.
6. Покажу, что такое качественная расшифровка: https://t.me/gotranscribe_bot
Здравствуйте, такое ощущение, что вы не пользовались Тимлогсом. Да после систем автоматического распознавания нужны доработки, именно поэтому в тимлогс есть возможность редактирования с прослушиванием
Данная статья как раз про то, в каком сервисе выше точность распознавания и где удобнее самостоятельно доработать текст
Да, ручную расшифровку трудно заменить, но если вам нужно дешево, быстро и вы сами можете сделать ревью текста, то сервисы автоматической транскрибации — лучший выбор
Человеками? Дорого блин, у меня четыре часа в месяц минимум, а то и пять. Сумма начинает быть заметной ))
Пользуюсь ботом https://t.me/SlyshuPishuBot в телеграме, стоит 130р в час, транскрибирует довольно качественно, в том числе большие файлы. При старте 60 минут бесплатно.
Спасибо, что поделились! Только что попробовала — вполне неплохо. Не очень удобно, что отдает в виде файла txt, где все полотном. С другой стороны, потратить 5 минут на наведение порядка, а не час на расшифровку — все-таки 5 минут намного более выигрышный вариант.
Сохранил, благодарю. Как же я дрюкался с транскрибацией ещё два года назад, вспоминать противно.
Как раз в тему, нужно расшифровать звонки и прикрепить текстом
прикольно,лучше чем платить за это какому то левому парню на бирже
Есть бесплатный @VoiceMsgBot в Телеграм. Работает очень хорошо. УЖ простите, если я вам бизнес обломаю :)
так это для голосовых сообщений, получасовой звонок туда не загрузишь
Информативно получилось, спасибо, мы сейчас пробуем салют спич от сбера https://developers.sber.ru/portal/products/smartspeech , в целом свою задачу выполняет
Спасибо! Бесплатного Пака хватило на задачу, по качеству распознания пока хз, но это быстрее и удобнее чем настраивать Yandex Speech Kit
с английским у них полное фиаско
шляпа полная, текст задваивается, куча ошибок, интерфейс меганеудобный, только минут 30 разбирался как его запустить... зря потраченного времени
Пользовался speechtotext, оч дорого
Teamlogs выглядит солидно, надо попробовать
в смысле дорого?
У них час стоит 100 рублей, а teamlogs 420.
очень помогли, спасибо. Выбрал спичтутекст. Неидеально, есть ошибки, нужно перелопачивать текст и ставить абзацы, но гораздо лучше, чем слушать и переписывать самому
чудовищный UI в выбранного вами спичтутекста
ну и вот такие штуки для меня непростительны...
Качество распознавания не проверял, ибо како смысл, если у них такое в форме прием денег )
Попробовала бот SlyshuPishuBot - очень понравился. При хорошем звуке вообще идеально получается, минимум коррекции. Разбивает на предложения хорошо, все дела. Берет большие файлы в мп3, не надо разбивать на кусочки.
Телегам премиум забыли
Здравствуйте, телеграм-премиум предназначен для голосовых сообщений и имеет ограничения по длительности и по размеру файла
А какие из западных сервисов (не принимающих российские карты для оплаты) понимают русский язык?
есть такие, это вопрос следующего материала
Есть тг бот SlyshuPishu, внутри использует Whisper от OpenAI, русский язык понимает довольно хорошо, по крайней мере лучше чем другие инструменты которые я тестил.
Рос карты тоже принимает кстати)
Wispi — простой веб-интерфейс для Whisper, благодаря этому удалось снизить расчетную стоимость до 1 рубль/минута
https://vc.ru/631170
а сервис работает?
Комментарий удален модератором
Здравствуйте, напишите пожалйуста в лс. Разберемся в вашем случае
Ребят я сейчас наброшу на вентилятор... Почему так дорого?
С одной стороны у меня есть набор технологий, я понимаю себестоимость этого упражнения. С другой стороны я конечно же понимаю что цена определяется ценностью для клиента, и лично сам готов платить рубль за минуту, а в идеале вообще платить подписку скажем в 900 рублей. И ни в чем себе не отказывать. Более того люди с которыми я общаюсь говорят плюс минус тоже самое.
Короче идея классная но позиционированием и ценами что то не так. Можно платить человеку в два раза больше и бинго. Но возможно я ошибаюсь.
PS. Если бы не было кучи проектов, запилил бы своё, руки не доходят... (
У меня часовые интервью, раз в неделю, мы их расшифровываем человеком. Делаем качественно по 20 рублей минута. Я чисто как клиент пытаюсь понять стоимость. Кажется что машина должна стоить раз в пять меньше. Возможно я ошибаюсь. Короче у меня неделя размышлений о ценообразовании ) Не обижайтесь если что )
О, да! В 2023 году мы, наконец, сможем полностью отказаться от своих ушей и просто слушать автоматически расшифрованный текст. Кто же еще нуждается в бесценном опыте прослушивания оригинальной речи?
Тоже хорошая система транскрибации yazapishu.ru Результат очень точный
не работает. ссылка на результаты скачивания кривая
Попробовала speechtotext. Получилась полная ахинея.
То ли он английский не умеет (но тогда надо было же где то предупредить наверное??) то ли я не знаю.
интерфейс загрузки файла косячный и ты не сразу понимаешь загружается файл или нет, в результате файл то ли пошел в обработку то ли нет - непонятно.
Попробуйте teamlogs.ru, с английский все отлично, если звук хороший)
Apihost распознал только кусок записи, денег при этом содрал за все 55 минут.
Добрый день. Помогите начать пользоваться данным сервисом. Я установил нажав на значок "Play" в пункте Setup. Сейчас не могу разобраться как добавить аудиофайл для транскрибации.
сервис diar_speech.ipynb
Можно подробней (не для программеров..)? Последовательность выполнения каждого блока кода (что должно появиться после каждого блока? Где вставить ссылку на аудиофайл (именно аудио) для транскрибации? Какие типы файлов можно использовать? Какова максимальная длительность файла, размер? Где указать вывод файла (адрес) куда кидает файл, как скачать? Пользуюсь Google Docs голосовым вводом и виртуальным аудиокабелем для ввода и выводы. Но не всегда удобно, т.к. страница должна быть постоянно открыта и на переднем плане...Для распознавания лекций, записанных в аудитории с телефона вполне годиться...Но хотелось бы освоить что нибудь еще... Спасибо что дочитали до конца.
А если у вас есть пакет адоба то в премьере это встроенная функция: https://helpx.adobe.com/premiere-pro/using/speech-to-text.html
Realspeaker.net не дает никаких бесплатных минут. Еще и удалить запись нельзя. Сначала оплати транскрибацию → потом удаляй. Ну такое себе удовольствие :)