Как за 10 минут расшифровать часовое аудио любой сложности: тестируем сервис перевода аудио в текст Speech2Text

Качественная транскрибация аудио, даже в эпоху ИИ, явление редкое. Сервисов много — расшифровка обычно не очень. Пора внести ясность и найти что-то реально рабочее. Сегодня пробуем Speech2Text, который, как заявлено, быстро и чётко конвертирует аудио в текст. Обзор в этот раз не самый большой, но результаты, спойлер, вас удивят.

Конечно, бросаться такими заявлениями не стоит, но вдруг и правда
Конечно, бросаться такими заявлениями не стоит, но вдруг и правда

Предисловие

Когда я только начинал свой тернистый путь коммерческого автора и журналиста — я брал задачи по расшифровке аудио для одного детского журнала. Это было в середине десятых.

Интервью были длинные, нудные, но меня увлекало то, что ты можешь вот так из тени интерпретировать чужие слова в складный текст, который затем появится на страницах глянца. Было интересно именно гострайтить, но расшифровывать — точно нет.

Ручной процесс занимал очень много времени. Прям очень. То есть, ты в этот момент не наслаждаешься красивыми буквами, а именно помираешь в муках косноязычия и некорректных формулировок. Ну, и слушаешь много чужой речи, которая всегда со своими особенностями. В общем, было весело, но долго.

Сейчас же — нейросети. Чему-то научились, чему-то ещё нет, но все сервисы, что я видел по расшифровке — всегда чуть не дотягивали. Сможет ли Speech2Text исправить ситуацию? Давайте проверять.

И да, на всякий случай напомню, что я отвечаю на VC за всякие нестандартные обзоры ИИ-сервисов. Ну, и параллельно веду сообщество для копирайтеров, где тоже веселюсь, размещаю вакансии в Digital и исследую нейросети.

Что же, вступление всё, давайте расшифровывать.

Немного про регистрацию и основной функционал

Сразу к делу — сервисом можно пользоваться без регистрации и бесплатно. Но советую всё-таки зарегаться, дабы только так вам дадут целых три часа запасного лимита для расшифровки.

Вам нужно будет ввести имя, почту, номер телефона и промокод, если есть (может, кстати, в комментах дадут). Не так уж и сложно.

Собственно, почему я всегда тестирую только бесплатный функционал сервисов? Для объективности, если она ещё существует в современном мире. Но для себя приятные и полезные сервисы я оплачиваю и вам советую.

Тарифная сетка здесь такая (на скриншоте). Вариантов достаточно, чтобы каждый мог выбрать оптимальный тариф, опираясь на свои цели и потребности.

От 400 до 4400, красиво и чётно
От 400 до 4400, красиво и чётно

Пока изучал тарифы — прикинул в голове, что одна минута аудио на стартовом тарифе выходит в рубль с копейками, а на каждом последующем — цена продолжает снижаться. Приятные ощущения, как будто доллар снова по 30 рублей. :)

Авторы, пиарщики, контентщики часто берут длинные интервью у заказчиков и команд, и их многочасовая расшифровка — действительно сомнительное удовольствие. В бесплатных инструментах обычно много ограничений и часто кривой перевод. Так что проще и выгоднее тупо оформить подписку и получить адекватную расшифровку через пару минут, чем нервничать и тратить часы впустую. Если она правда адекватная, конечно. :)

Ещё сервис предоставляет корпоративные тарифы для компаний, если кому нужно. Цены тоже более или менее приемлемые. Если на работе вы самостоятельно оплачивали себе расшифровщика, то смело отправляйте главреду / боссу ссылку на сервис. Ребята работают с юридическими лицами, так что всё ок.

По-прежнему чётно
По-прежнему чётно

А что по преимуществам, которые заявлены?

  • деление расшифровки на собеседников, даже если их больше двух;
  • интерактивный плеер и возможность поделиться ссылкой;
  • отсутствие ограничений по длительности: хоть пять минут, хоть три часа;
  • распознавание речи при помехах: ветер, шум авто, сторонние разговоры;
  • высокая скорость расшифровки: один час аудио и видео за 10 минут;
  • доступна расшифровка на более чем 20 языках;
  • наличие субтитров;
  • конфиденциальность: все материалы удаляются;
  • возможность прикрепить ссылку на файл, который нужно расшифровать, например, ссылка на Rutube / VK / Youtube. Как бонус: после расшифровки аудио и видео можно скачать.
Ну, кстати, многих этих фич я нигде больше не видел
Ну, кстати, многих этих фич я нигде больше не видел

Итак, давайте транскрибировать что-ли-уже-сколько-можно-а

Собрал для вас задачи трёх типов: видео на русском и английском языках, аудиодорожка на испанском + песня на французском языке. Сразу отмечу, что никаких изменений в текст расшифровки я не вносил, только переименовывал спикеров, чтобы было интереснее читать скриншоты. ;)

Видео на русском

Начал с этого видео — небольшой мотивационной вырезки из фильма, где два спикера и много фонового шума. Задачка с жирной *.

Как говорится, без заморочек
Как говорится, без заморочек

Вот такая расшифровка получилась (следующий скрин). Всё грамотно, даже все знаки препинания на месте. Сервис определил двух спикеров и знаком вопроса обозначил толпу, которая выкрикивала что-то на фоне. Это здорово облегчает восприятие расшифровки. Сразу же заметил прикольные фичи:

  • Можно ввести имена спикеров, и они автоматически подтянутся в текст расшифровки, например, когда два спикера.
  • Можно зайти в плеер и выбрать редактирование имени спикера. Например, вы расшифровываете запись большой конференции, где много спикеров. В плеере можно одновременно смотреть видео, читать расшифровку и походу называть спикеров. Так точно не запутаетесь, ведь вам не нужно переключаться между вкладками.
  • В плеере можно читать расшифровку, пока видео на паузе, и если в моменте появилась необходимость что-то уточнить, то нажав на таймкод сервис сразу отмотает нужный момент на видео.
  • Возможность поделиться ссылкой расшифровки.

На мой взгляд, удобные и полезные плюшки: не простая расшифровка, а целый набор инструментов, которые делают работу гораздо комфортнее.

А что добавить, хорошо вышло
А что добавить, хорошо вышло

Видео на английском

Ещё я загрузил отрывок из Гарри Поттера, где уже несколько героев-спикеров. Специально взял видео с текстом, чтобы сравнить качество расшифровки. На удивление — всё совпало, как надо. Можете посмотреть оригинал видео, звук там не самого лучшего качества. Мало кто расшифрует это внятно и чётко.

Сверял с оригиналом, нареканий нет
Сверял с оригиналом, нареканий нет

Песня на французском

А теперь музыкальная пауза. Я загрузил в Speech2text песню Zaz — Je Veux (признаюсь, люблю эту энергию и драйв нового джаза), и вот что вышло.

Сервис сработал неплохо, с оригиналом совпадает. Правда слегка не в том виде, в каком мы привыкли видеть текст песни.

Французская классика
Французская классика

Аудиодорожка на испанском

И на десерт — аудио для изучающих испанский язык. Также, без лишних слов, ставлю за расшифровку 5+. Сверил с оригинальным текстом, и всё попало слово в слово.

Если честно, в начале теста я думал, что аудио на иностранных языках будут расшифровываться медленнее, чем на русском. Но оказалось, что язык никак не влияет на скорость. Все файлы были переведены в текстовый формат меньше, чем за минуту.

Испанский тоже может, практикует
Испанский тоже может, практикует

Вместо заключения

Сервис понравился, однозначно рекомендую к использованию. Могу отметить только плюсы, так как минусов особо нет, только если совсем уж докапываться.

Итак, что я можно сказать по существу:

— удобный и понятный интерфейс + нет никаких отвлекающих всплывающих плашек;

— демократичные цены и широкий выбор тарифов как для персонального, так и корпоративного пользования;

— на бесплатном тарифе доступны все функции, что и на платном, а единственное ограничение — время расшифровки. Но три часа после регистрации очень щедрый подарок;

— более 20 языков, которые распознаёт сервис;

— деление на спикеров, которых можно назвать и обозначить;

— возможность сразу поделиться ссылкой, а не скачивать файл и потом пересылать другим;

— разнообразие форматов, например, с таймкодами или без;

— возможность оплачивать подписку для юридических лиц;

— API для корпоративных пользователей точно не будет лишним для бизнеса.

Короче, буду пользоваться Speech2Text и вам советую. Поможет упростить любую транскрибацию, сделает чётко, сэкономит время, даст сил для новых задач. Поделитесь, дорогие, как вам результаты? Пользуетесь ли расшифровщиками с ИИ? Что, вообще, думаете?

Благодарю всех, кто дочитал до этого момента, вы молодцы. Если будут вопросы, предложения, пожелания — велком в комментарии. И обязательно загляните в другие обзоры, там тоже крутые ИИ-сервисы.

33
4 комментария

Я тоже пользуюсь этим сервисом)
Он клевый))

1
Ответить

Рад, что нравится)

Ответить

где промик то? )))


Отличная статья, которая поднимает действительно важную тему!

Как человека, работающего в маркетинге, меня всегда волновала точность транскрибации. Я недавно попробовал сервис "Писец" и был приятно удивлён его возможностями. Он быстро обрабатывает любые медиа файлы и без проблем разбивает текст на спикеров.

Это значительно упрощает работу с записями встреч или интервью. Рекомендую каждому профессионалу обратить внимание на https://pisec.app/ — вы не пожалеете!

Ответить

Конкуренцию уважаю) Спасибо, что поделились.

Ответить