Как за 10 минут расшифровать часовое аудио любой сложности: тестируем сервис перевода аудио в текст Speech2Text

Качественная транскрибация аудио, даже в эпоху ИИ, явление редкое. Сервисов много — расшифровка обычно не очень. Пора внести ясность и найти что-то реально рабочее. Сегодня пробуем Speech2Text, который, как заявлено, быстро и чётко конвертирует аудио в текст. Обзор в этот раз не самый большой, но результаты, спойлер, вас удивят.

Конечно, бросаться такими заявлениями не стоит, но вдруг и правда
Конечно, бросаться такими заявлениями не стоит, но вдруг и правда

Предисловие

Когда я только начинал свой тернистый путь коммерческого автора и журналиста — я брал задачи по расшифровке аудио для одного детского журнала. Это было в середине десятых.

Интервью были длинные, нудные, но меня увлекало то, что ты можешь вот так из тени интерпретировать чужие слова в складный текст, который затем появится на страницах глянца. Было интересно именно гострайтить, но расшифровывать — точно нет.

Ручной процесс занимал очень много времени. Прям очень. То есть, ты в этот момент не наслаждаешься красивыми буквами, а именно помираешь в муках косноязычия и некорректных формулировок. Ну, и слушаешь много чужой речи, которая всегда со своими особенностями. В общем, было весело, но долго.

Сейчас же — нейросети. Чему-то научились, чему-то ещё нет, но все сервисы, что я видел по расшифровке — всегда чуть не дотягивали. Сможет ли Speech2Text исправить ситуацию? Давайте проверять.

И да, на всякий случай напомню, что я отвечаю на VC за всякие нестандартные обзоры ИИ-сервисов. Ну, и параллельно веду сообщество для копирайтеров, где тоже веселюсь, размещаю вакансии в Digital и исследую нейросети.

Что же, вступление всё, давайте расшифровывать.

Немного про регистрацию и основной функционал

Сразу к делу — сервисом можно пользоваться без регистрации и бесплатно. Но советую всё-таки зарегаться, дабы только так вам дадут целых три часа запасного лимита для расшифровки.

Вам нужно будет ввести имя, почту, номер телефона и промокод, если есть (может, кстати, в комментах дадут). Не так уж и сложно.

Собственно, почему я всегда тестирую только бесплатный функционал сервисов? Для объективности, если она ещё существует в современном мире. Но для себя приятные и полезные сервисы я оплачиваю и вам советую.

Тарифная сетка здесь такая (на скриншоте). Вариантов достаточно, чтобы каждый мог выбрать оптимальный тариф, опираясь на свои цели и потребности.

От 400 до 4400, красиво и чётно
От 400 до 4400, красиво и чётно

Пока изучал тарифы — прикинул в голове, что одна минута аудио на стартовом тарифе выходит в рубль с копейками, а на каждом последующем — цена продолжает снижаться. Приятные ощущения, как будто доллар снова по 30 рублей. :)

Авторы, пиарщики, контентщики часто берут длинные интервью у заказчиков и команд, и их многочасовая расшифровка — действительно сомнительное удовольствие. В бесплатных инструментах обычно много ограничений и часто кривой перевод. Так что проще и выгоднее тупо оформить подписку и получить адекватную расшифровку через пару минут, чем нервничать и тратить часы впустую. Если она правда адекватная, конечно. :)

Ещё сервис предоставляет корпоративные тарифы для компаний, если кому нужно. Цены тоже более или менее приемлемые. Если на работе вы самостоятельно оплачивали себе расшифровщика, то смело отправляйте главреду / боссу ссылку на сервис. Ребята работают с юридическими лицами, так что всё ок.

По-прежнему чётно
По-прежнему чётно

А что по преимуществам, которые заявлены?

  • деление расшифровки на собеседников, даже если их больше двух;
  • интерактивный плеер и возможность поделиться ссылкой;
  • отсутствие ограничений по длительности: хоть пять минут, хоть три часа;
  • распознавание речи при помехах: ветер, шум авто, сторонние разговоры;
  • высокая скорость расшифровки: один час аудио и видео за 10 минут;
  • доступна расшифровка на более чем 20 языках;
  • наличие субтитров;
  • конфиденциальность: все материалы удаляются;
  • возможность прикрепить ссылку на файл, который нужно расшифровать, например, ссылка на Rutube / VK / Youtube. Как бонус: после расшифровки аудио и видео можно скачать.
Ну, кстати, многих этих фич я нигде больше не видел
Ну, кстати, многих этих фич я нигде больше не видел

Итак, давайте транскрибировать что-ли-уже-сколько-можно-а

Собрал для вас задачи трёх типов: видео на русском и английском языках, аудиодорожка на испанском + песня на французском языке. Сразу отмечу, что никаких изменений в текст расшифровки я не вносил, только переименовывал спикеров, чтобы было интереснее читать скриншоты. ;)

Видео на русском

Начал с этого видео — небольшой мотивационной вырезки из фильма, где два спикера и много фонового шума. Задачка с жирной *.

Как говорится, без заморочек
Как говорится, без заморочек

Вот такая расшифровка получилась (следующий скрин). Всё грамотно, даже все знаки препинания на месте. Сервис определил двух спикеров и знаком вопроса обозначил толпу, которая выкрикивала что-то на фоне. Это здорово облегчает восприятие расшифровки. Сразу же заметил прикольные фичи:

  • Можно ввести имена спикеров, и они автоматически подтянутся в текст расшифровки, например, когда два спикера.
  • Можно зайти в плеер и выбрать редактирование имени спикера. Например, вы расшифровываете запись большой конференции, где много спикеров. В плеере можно одновременно смотреть видео, читать расшифровку и походу называть спикеров. Так точно не запутаетесь, ведь вам не нужно переключаться между вкладками.
  • В плеере можно читать расшифровку, пока видео на паузе, и если в моменте появилась необходимость что-то уточнить, то нажав на таймкод сервис сразу отмотает нужный момент на видео.
  • Возможность поделиться ссылкой расшифровки.

На мой взгляд, удобные и полезные плюшки: не простая расшифровка, а целый набор инструментов, которые делают работу гораздо комфортнее.

А что добавить, хорошо вышло
А что добавить, хорошо вышло

Видео на английском

Ещё я загрузил отрывок из Гарри Поттера, где уже несколько героев-спикеров. Специально взял видео с текстом, чтобы сравнить качество расшифровки. На удивление — всё совпало, как надо. Можете посмотреть оригинал видео, звук там не самого лучшего качества. Мало кто расшифрует это внятно и чётко.

Сверял с оригиналом, нареканий нет
Сверял с оригиналом, нареканий нет

Песня на французском

А теперь музыкальная пауза. Я загрузил в Speech2text песню Zaz — Je Veux (признаюсь, люблю эту энергию и драйв нового джаза), и вот что вышло.

Сервис сработал неплохо, с оригиналом совпадает. Правда слегка не в том виде, в каком мы привыкли видеть текст песни.

Французская классика
Французская классика

Аудиодорожка на испанском

И на десерт — аудио для изучающих испанский язык. Также, без лишних слов, ставлю за расшифровку 5+. Сверил с оригинальным текстом, и всё попало слово в слово.

Если честно, в начале теста я думал, что аудио на иностранных языках будут расшифровываться медленнее, чем на русском. Но оказалось, что язык никак не влияет на скорость. Все файлы были переведены в текстовый формат меньше, чем за минуту.

Испанский тоже может, практикует
Испанский тоже может, практикует

Вместо заключения

Сервис понравился, однозначно рекомендую к использованию. Могу отметить только плюсы, так как минусов особо нет, только если совсем уж докапываться.

Итак, что я можно сказать по существу:

— удобный и понятный интерфейс + нет никаких отвлекающих всплывающих плашек;

— демократичные цены и широкий выбор тарифов как для персонального, так и корпоративного пользования;

— на бесплатном тарифе доступны все функции, что и на платном, а единственное ограничение — время расшифровки. Но три часа после регистрации очень щедрый подарок;

— более 20 языков, которые распознаёт сервис;

— деление на спикеров, которых можно назвать и обозначить;

— возможность сразу поделиться ссылкой, а не скачивать файл и потом пересылать другим;

— разнообразие форматов, например, с таймкодами или без;

— возможность оплачивать подписку для юридических лиц;

— API для корпоративных пользователей точно не будет лишним для бизнеса.

Короче, буду пользоваться Speech2Text и вам советую. Поможет упростить любую транскрибацию, сделает чётко, сэкономит время, даст сил для новых задач. Поделитесь, дорогие, как вам результаты? Пользуетесь ли расшифровщиками с ИИ? Что, вообще, думаете?

Благодарю всех, кто дочитал до этого момента, вы молодцы. Если будут вопросы, предложения, пожелания — велком в комментарии. И обязательно загляните в другие обзоры, там тоже крутые ИИ-сервисы.

33
11
8 комментариев

Я тоже пользуюсь этим сервисом)
Он клевый))

1

Рад, что нравится)

С инновациями в сфере искусственного интеллекта мы давно уж привыкли, что обещания едва ли не превосходят реальность. Но что, если этот раз он действительно поразит нас? Мы взволновались и решили попробовать сервис Speech2Text, который обещает трансформировать подход к расшифровке аудио: от неудобных и трудоёмких процедур к революционной лёгкости и быстроте. Встречаемся с амбициозным обещанием: "Как за 10 минут расшифровать часовое аудио любой сложности?"
На этапе предвкушения первый плюс — это простота регистрации на платформе, где уже дополнительно к стандартным данным вам могут начислить целых три часа бесплатного использования! Причём это сопровождется столь привлекательными реферальными бонусами, что сложно устоять. Поделитесь своей реферальной ссылкой, и получите 50% от всех платежей ваших приглашённых пользователей в течение 90 дней после их регистрации. А для многих стремящихся к эффективности — это безусловно радостная новость.
Однако, не только финансовые перспективы делают этот продукт таким притягательным. В эпоху, когда каждый контентщик вынужден бороться с объёмами низкокачественных бесплатных решений, предложение Speech2Text кажется находкой. Здесь вам предлагается не просто распознавание речи, а качественная и быстрая расшифровка, которая действительно работает. Многие профессионалы, от авторов до пиарщиков, наверняка вдохнут с облегчением: отныне трудовой день не будет начинаться с мучений трансформации звуков в слова.
Переход на платные тарифы даёт подтверждённо привлекательную выгоду и для бизнеса. Компании способны оптимизировать свои издержки, минимизируя затраты на ручную дешифровку, а корпоративные тарифы позволяют избавиться от дополнительной головной боли, предложив ценности и готовность работать с юридическими лицами. Реферальная программа добавляет сладкого сахара — бонусные рубли вы уже можете использовать так, как вам только вздумается!

Итак, подведём итоги. Speech2Text не прогремело на рынке без основания. Обещанные возможности, дополненные яркой системой вознаграждений, делают его прорывным шагом в усовершенствовании аудиоинтерпретации. Осталось только попробовать и самим удостовериться в получаемом удовольствии от качества и скорости. Ссылка для начала этого захватывающего опыта уже ждёт вас: Ваша реферальная ссылка: https://speech2text.ru/?r=z6vsAHiM11

1

Ого, спасибо за такой подробный коммент)

где промик то? )))


Отличная статья, которая поднимает действительно важную тему!

Как человека, работающего в маркетинге, меня всегда волновала точность транскрибации. Я недавно попробовал сервис "Писец" и был приятно удивлён его возможностями. Он быстро обрабатывает любые медиа файлы и без проблем разбивает текст на спикеров.

Это значительно упрощает работу с записями встреч или интервью. Рекомендую каждому профессионалу обратить внимание на https://pisec.app/ — вы не пожалеете!

Конкуренцию уважаю) Спасибо, что поделились.