«Тинькофф» стал продавать корпоративным клиентам свою технологию синтеза и распознавания речи

С помощью Tinkoff VoiceKit можно создавать голосовых помощников, автоматизировать работу колл-центра и озвучивать видеоролики.

Группа «Тинькофф» начала продавать корпоративным клиентам собственную речевую технологию Tinkoff VoiceKit, с помощью которой можно преобразовывать голос в текст и синтезировать голос из текста. Об этом vc.ru рассказал представитель компании.

«Тинькофф» разрабатывает технологию распознавания речи с 2016 года, а технологию синтеза речи с 2018 года (на основе таких моделей, как WaveNet, Tacotron-2 и Deep Voice). Для обучения банк использует терабайты данных и десятки часов человеческой речи, объяснил представитель группы.

У нас была блестящая команда разработчиков, 80 видеокарт, более 15 тысяч часов аудио из свободных источников, десятки тысяч часов звонков собственного колл-центра, суперкомпьютер «Колмогоров» и диктор, готовый пять месяцев записываться для синтеза речи. Мы работали три года, разметили за это время более 4,5 тысяч часов аудио и натренировали глубокие нейросетевые модели.

Вячеслав Цыганов, вице-президент «Тинькофф»

Заявку на подключение технологии клиенты могут оставить на сайте Tinkoff VoiceKit. Для образовательных учреждений и студентов «Тинькофф» обещает предоставлять технологию бесплатно. Для остальных тариф составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от «Яндекса» составляет 60 копеек за минуту двухканального аудио.

«Тинькофф» использовал речевые технологии для создания голосового помощника «Олега», а также для анализа качества обработки обращений клиентов в колл-центр и борьбы с мошенничеством. По версии компании, Tinkoff VoiceKit можно использовать для:

  • Создания голосовых помощников.
  • Создания программных роботов для автоматизации работы колл-центра.
  • Записи аудиокниг и озвучка видеороликов.
  • Создания приложений для людей с ограниченными возможностями.
  • Перевода звуковых записей публичных выступлений в текстовый формат.
4747
45 комментариев

Так хорошо начал, но не закончил фразу...
"...Не то, чтобы это всё было нужно в поездке, но раз начал коллекционировать бигдату, то иди в своём увлечении до конца. Единственное, что меня беспокоило — это эфир. В мире нет никого более беспомощного, безответственного и безнравственного, чем человек в эфирном запое. И я знал, что довольно скоро мы в это окунёмся."

36
Ответить

ОБАЛДЕННО! Мне даже больше чем Алиса и новый Гугл-ассистент нравится.
Как будто Мориарти из Шерлока Гая Ричи говорит. Потрясающе.

26
Ответить

Вы (Тинькофф) серьезно?
Пару недель назад я менял пин-код от карты после беседы с консультантом Тинькова по телефону. Девушка вежливо попросила оставаться на линии и следовать подсказкам голосового помощника. Голосовой ассистент попросил сказать "да", чтобы подтвердить пин-код. Этот банальный шаг стал адским мучением в пути 25-минутной попытки найти решение. Подтвердить свое решение ответив " да" у меня так и не получилось. Пробовал говорить четко, громко, орал, шёпотом - все тщетно.
Высокие технологии говорите, ага...

6
Ответить

Максим, ну а как ещё вас заставить говорить 25 минут для пополнения базы голосов бигдаты?

37
Ответить

Эээ, у них в приложении пин-код меняется за два клика

17
Ответить

Хорошо, что в ЗАГСе такого конфуза не было.

4
Ответить

Здравствуйте. Система может некорректно воспринимать ваш выбор из-за постороннего шума. Сожалеем, что столкнулись с неудобством. В этом случае можно сразу задать удобный ПИН-код через личный кабинет или приложение.

2
Ответить