Голос в текст — онлайн-сервис распознавания речи на базе Яндекс.Алисы

Всем привет! Меня зовут Дмитрий, я разработчик и создатель проекта golos-v-text.ru. Эта история о том как любовь правит миром и как создать продукт чтобы спасти принцессу из замка. Идея проекта: помочь страдальцам, кто транскрибирует аудиозаписи вручную, будь то запись со встречи на диктофон, телефонный разговор или субтитры для видео.

Результат расшифровки телефонного разговора для многоканальной аудиозаписи.
Результат расшифровки телефонного разговора для многоканальной аудиозаписи.

Наша команда

На данный момент как таковой команды нет, и задач кроме как на написание кода нет. Создать сервис таким какой он есть мне помогли мои близкие люди — моя девушка Катя и друг Рамин. Они выступают в роли тестировщиков и представителей целевой аудитории.

История создания

Моя девушка Катя работает помощником руководителя продюсерского центра. Задачи у нее бывают самые разнообразные — от поиска места для проведения мероприятий до описания продуктовых требований аналитики в BI.

Однажды ей передали 2 аудиозаписи со встречи с экспертами, в сумме на 4,5 часа. Обе записи буквально напичканы полезной и важной информацией которую необходимо перенести в текст для составления обучающего курса.

На расшифровку 10 минут записи ушло примерно 1,5 часа времени, не отвлекаясь на посторонние дела. Информации было действительно много и вся она была ценная.

Я следил за этим процессом и мне хотелось выколоть себе глаза, т.к. я терпеть не могу рутинную работу и всегда стараюсь автоматизировать ее.

Я вспомнил, что когда-то Яндекс Speech Kit помог мне с подобной задачей и решил попробовать. Правила работы сервиса сильно изменились с тех пор, пришлось изобретать велосипеды, изучать как работают аудио кодеки и сервера на Linux. В ручном режиме, отправляя запросы через Postman, за вечер я смог получить расшифровку обеих записей и мы реально афигели от ее результатов. Расшифровались даже моменты где люди перебивали друг друга или говорили на заднем плане. Пожалуй это единственное, где иногда приходилось переслушивать запись. Если человек говорил один, то все было интуитивно понятно. И это запись с диктофона на iPhone Карл!

Первая расшифровка записи от Яндекс Speech Kit
Первая расшифровка записи от Яндекс Speech Kit

Катя рада! Я доволен собой, ведь я спас принцессу от страшной и нудной задачи, и жили они долго и счастливо…

Конец истории. (нет)

Спрос и предложение на услуги транскрибирования

Переспав с приятными мыслями о том, что я помог любимой девушке, я решил изучить спрос и предложение на подобные услуги и это произвело на меня сильное впечатление.

Количество запросов слов "аудио в текст" в wordstat.yandex.ru
Количество запросов слов "аудио в текст" в wordstat.yandex.ru
Количество запросов слов "голос в текст" в wordstat.yandex.ru
Количество запросов слов "голос в текст" в wordstat.yandex.ru

В выдаче яндекса по этим запросам выходят только сервисы которые как «клавиатура на iPhone» умеют превращать голос в текст прямо здесь и сейчас, и естественно не в таких больших объемах времени, как понадобилось нам с Катей.

В выдаче присутствуют компании, которые таким же ручным трудом, при помощи «профессионалов», транскрибируют аудио, и берут за это космические деньги.

Создание MVP

Вооружившись Vue + Laravel + Yandex Cloud я начал писать прототип сервиса, одновременно продумывая модель монетизации.

Через 2 недели я выкатил приложение на тест своим близким. В ответ я конечно же получил баги, но самое важное — крутые отзывы.

Рамин — профессиональный видеограф, сразу нашел своё применение сервису. Для создания рекламных роликов или интервью он часто делает субтитры прямо под видео, т.к. YouTube делает это не очень качественно. После прогона 2-х аудиозаписей он признался, что больше не будет делать субтитры к роликам вручную.

Это вдохновило меня по-новому, и я с большим энтузиазмом продолжил доделывать сервис. Сделал удобный, по-моему мнению UI, регистрацию, расшифровку многоканальных записей (для расшифровки звонков и отображения их в формате чата), прикрутил оплату и придумал тарифы.

Монетизация

В данный момент тарифы — это проверка гипотезы. Полагаю, что сервис будет полезен как частным лицам, так и компаниям, которые занимаются расшифровкой записей вручную, о которых я писал выше. Поэтому стоимость расшифровки для больших объемов аудио — дешевле, т.е. те кто пополняют сервис на бОльшие суммы, получают более выгодные условия.

У меня нет юр. лица, поэтому все поступления идут на Яндекс кошелек (ЮMoney). Прошу не пугаться надписи, что деньги получит человек, а не компания.

Пополнение баланса сервиса <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Fgolos-v-text.ru%2F&postId=174704" rel="nofollow noreferrer noopener" target="_blank">golos-v-text.ru</a>
Пополнение баланса сервиса golos-v-text.ru

Сейчас сервис запущен и умеет распознавать только русский язык. Конечно расшифровка работает не идеально, и скорее всего в любой записи будут несостыковки, т.е. придется править текст результата. Но по-моему это хорошее решение для автоматизации рутинных задач за небольшие деньги.

Дальнейшее развитие

В ближайшее время планирую доделать мобильную версию приложения, сейчас для мобильных устройств доступна только основная функциональность - загрузка записей и расшифровка. Осталось дать возможность пополнять баланс.

Глобально есть несколько идей и направлений развития сервиса, но пока говорить о них не буду, т.к. хочется быть полезным и решать реальные задачи пользователей. Основная цель — получить обратную связь и понять какое из направлений наиболее востребованное.

44
4 комментария

Крутой сервис! Когда работал на радио так же приходилось переводить голос. Хвала небесам, что интервью у меня были короткими, но вот коллега получала часовые записи. Вот она стрелялась...

Ответить

Спасибо!)

Ответить

Да это отлично сервис с этом сервис можно работать очень легко 

Ответить