«Тинькофф» стал продавать корпоративным клиентам свою технологию синтеза и распознавания речи Статьи редакции

С помощью Tinkoff VoiceKit можно создавать голосовых помощников, автоматизировать работу колл-центра и озвучивать видеоролики.

Группа «Тинькофф» начала продавать корпоративным клиентам собственную речевую технологию Tinkoff VoiceKit, с помощью которой можно преобразовывать голос в текст и синтезировать голос из текста. Об этом vc.ru рассказал представитель компании.

«Тинькофф» разрабатывает технологию распознавания речи с 2016 года, а технологию синтеза речи с 2018 года (на основе таких моделей, как WaveNet, Tacotron-2 и Deep Voice). Для обучения банк использует терабайты данных и десятки часов человеческой речи, объяснил представитель группы.

У нас была блестящая команда разработчиков, 80 видеокарт, более 15 тысяч часов аудио из свободных источников, десятки тысяч часов звонков собственного колл-центра, суперкомпьютер «Колмогоров» и диктор, готовый пять месяцев записываться для синтеза речи. Мы работали три года, разметили за это время более 4,5 тысяч часов аудио и натренировали глубокие нейросетевые модели.

Вячеслав Цыганов, вице-президент «Тинькофф»

Заявку на подключение технологии клиенты могут оставить на сайте Tinkoff VoiceKit. Для образовательных учреждений и студентов «Тинькофф» обещает предоставлять технологию бесплатно. Для остальных тариф составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от «Яндекса» составляет 60 копеек за минуту двухканального аудио.

«Тинькофф» использовал речевые технологии для создания голосового помощника «Олега», а также для анализа качества обработки обращений клиентов в колл-центр и борьбы с мошенничеством. По версии компании, Tinkoff VoiceKit можно использовать для:

  • Создания голосовых помощников.
  • Создания программных роботов для автоматизации работы колл-центра.
  • Записи аудиокниг и озвучка видеороликов.
  • Создания приложений для людей с ограниченными возможностями.
  • Перевода звуковых записей публичных выступлений в текстовый формат.
0
45 комментариев
Написать комментарий...
Вы в федеральном розыске

Так хорошо начал, но не закончил фразу...
"...Не то, чтобы это всё было нужно в поездке, но раз начал коллекционировать бигдату, то иди в своём увлечении до конца. Единственное, что меня беспокоило — это эфир. В мире нет никого более беспомощного, безответственного и безнравственного, чем человек в эфирном запое. И я знал, что довольно скоро мы в это окунёмся."

Ответить
Развернуть ветку
RK

ОБАЛДЕННО! Мне даже больше чем Алиса и новый Гугл-ассистент нравится.
Как будто Мориарти из Шерлока Гая Ричи говорит. Потрясающе.

Ответить
Развернуть ветку
Максим Верона

Вы (Тинькофф) серьезно?
Пару недель назад я менял пин-код от карты после беседы с консультантом Тинькова по телефону. Девушка вежливо попросила оставаться на линии и следовать подсказкам голосового помощника. Голосовой ассистент попросил сказать "да", чтобы подтвердить пин-код. Этот банальный шаг стал адским мучением в пути 25-минутной попытки найти решение. Подтвердить свое решение ответив " да" у меня так и не получилось. Пробовал говорить четко, громко, орал, шёпотом - все тщетно.
Высокие технологии говорите, ага...

Ответить
Развернуть ветку
Вы в федеральном розыске

Максим, ну а как ещё вас заставить говорить 25 минут для пополнения базы голосов бигдаты?

Ответить
Развернуть ветку
Максим Верона

Если только для анализа ненормативной лексики и деления клиентов на терпеливых и не очень)

Ответить
Развернуть ветку
Вы в федеральном розыске

Нет, они возьмут слепки голоса, звуки, интонации, чтобы потом робот мог говорить вашим голосом.

Ответить
Развернуть ветку
Александр Пересветов

Эээ, у них в приложении пин-код меняется за два клика

Ответить
Развернуть ветку
Максим Верона

Вот после сбоя в смене пин-кода и блокировки карты я и позвонил на горячую линию.

Ответить
Развернуть ветку
Artemy Ustimenko

Хорошо, что в ЗАГСе такого конфуза не было.

Ответить
Развернуть ветку
Тинькофф Банк

Здравствуйте. Система может некорректно воспринимать ваш выбор из-за постороннего шума. Сожалеем, что столкнулись с неудобством. В этом случае можно сразу задать удобный ПИН-код через личный кабинет или приложение.

Ответить
Развернуть ветку
Вася Пражкин

«Потому что тихо должно быть в библиотеке»

Ответить
Развернуть ветку
Максим Верона

Посторонних шумов не было. Я регулярно пользуюсь другим голосовым помощником и проблем нет даже в автомобиле с включенной аудиосистемой.
Замечательно, что вы откликнулись, поэтому думаю вы обязательно пройдете все шаги от звонка оператору из мобильного приложения и оцените ошибки в определении оставшегося времени ожидания и скорости решения вопроса смены пин-кода. Уверен, что время решения вопроса по телефона можно значительно сократить до 5 минут, вместо 25.

Ответить
Развернуть ветку
Цой жив

Это не синтез речи, это voice recognition. Меня тоже бесят, когда просят дать команду голосом, ты как идиот должне сначала придумать,что сказать, а затем по слогам все это произносишь. Со стороны люди в шоке.

Ответить
Развернуть ветку
СЕМКОМ

Зачем платить, за то что уже а инете валом)

Ответить
Развернуть ветку
Максим Красуцкий

У нас было 2 пакетика травы, 75 ампул мескалина, 5 пакетиков диэтиламид лизергиновой кислоты, или ЛСД, солонка, на половину заполненая кокаином и целое море разноцветных амфитаминов, барбитуратов и транквилизаторов, а так же бутылка текилы, бутылка рома, ящик пива, пинта чистого эфира и две дюжины пузырьков амил нитрита...

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Стас Федоров

Скоро речевые технологии будут в fix price продаваться. И родители будут выбирать имя для ребёнка, которое не совпадает с каким-нибудь голосовым помощником.

Ответить
Развернуть ветку
Влад Виолентий

ситезирует на удивление неплохо. но возможно только на демонстрационном тексте.

может среди комментаторов кто нибудь пробовал использовать модель wav2letter++ для распознования русского языка? вроде показатели распознования на инглише выше чем у аналогичных моделей

Ответить
Развернуть ветку
Vasiliy Leytman

Интересно, почему с интонацией у них у всех так плохо? Особенно когда интонируется текст знаками препинания. А то и здесь, и на остальных движках создаётся ощущение, что всё что после любого знака препинания, читается как новое предложение, и от этого через пару минут мозг взрывается — хотя сам синтез качественный весьма.

Ответить
Развернуть ветку
денькя

нет теории интонации, поэтому все игнорят эту тему

Ответить
Развернуть ветку
Руслан

Когда синтезатор начнет считывать содержание текста и эмоциональный окрас, тогда можно будет услышать интонацию. Сейчас же это подбор звука к разным сочетаниям символов.

Это очень похоже на то как читает ребенок, когда его заставляют родители. Не важно что, главное издавать звуки которые соответствуют буквам в книге.

Ответить
Развернуть ветку
Vasiliy Leytman

Ну невпопад она уже и сейчас есть, есть ударения, есть акценты, просто нет ощущения привязки этой интонации к тексту.

Ответить
Развернуть ветку
Руслан

Вероятно это остатки интонаций диктора с которого делали слепок голоса.

Ответить
Развернуть ветку
Вася Пражкин

Интонации, ударение - в этом вся сложность, поэтому синтерзированный голос легко распознать.

Ответить
Развернуть ветку
Диктор Павел Константиновский

Наверное, потому что надо сначала научить робота "понимать" смыслы, подтексты. Пока с этим плохо. Хотя для меня (диктора по профессии) безусловно хорошо :)

Ответить
Развернуть ветку
Валентин Остапенко

Я бы пользовался такой озвучкой для видео роликов.

Если не ошибаюсь на vc была возможность прослушивания статей. Довольно неплохое качество речи было. Отключили?

Ответить
Развернуть ветку
Егор Корницкий

В приложении, вроде бы, все статьи

Ответить
Развернуть ветку
Антон Соколов

Нет, не все. Конкретно сейчас некоторые статьи ниже в ленте не имеют этой возможности.

Ответить
Развернуть ветку
NotFop

Почему-то только на некоторых есть озвучка, а не на всех.

Ответить
Развернуть ветку
Евгений Левин

Какие языки поддерживаются?

Ответить
Развернуть ветку
Тинькофф

На данный момент в Tinkoff VoiceKit мы предоставляем только русский язык.

Ответить
Развернуть ветку
Nick Zakonov

Не можем с вами связаться, форма обратной связи на сайте молчит.

Ответить
Развернуть ветку
Цой жив

Не очень понятно, где применить эту технологию:
- Если озвучка статей, то с такой скоростью прочтение каждой статьи займет 10-15 мин, вместо 1-2 мин.
- Если автоматизация службы поддержки, то это из сериии "я не навижу своих клиентов"
- Если чат боты, то они нафиг не нужны в таких колличествах

Интересно было бы увидеть юзеркейсы

Ответить
Развернуть ветку
Игорь Елисеев

Автоматизированные звонки.
"Здравствуйте, Иван, ваш рейс номер XXX отменен. Просьба обратиться в тиньков.тревел" )

Ответить
Развернуть ветку
Цой жив

Чтобы все вокруг слышали? В голову приходит только кейс, когда голос зачитывает SMS-ки с телефона во время вождения автомобиля. Но вроде, это функция любого телефона.

Ответить
Развернуть ветку
Nikolay Kenig

Вот поэтому я в телефон молчу!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Artemy Ustimenko

Жалко, что искусственный "пососи потом проси" интеллект в комплекте не идет.

Ответить
Развернуть ветку
Nick Newman

Халясё та как ... ! Чукча все слышит аднака ... !!!

Ответить
Развернуть ветку
Цой жив

Раньше же не VC была кнопка "Послушать статью", тоже от Тинькофф?

Ответить
Развернуть ветку
Андрей Фролов

Есть и сейчас. Работает на Яндексе https://vc.ru/ask/50959-audiostati-na-vc-ru-bred-ili-funkcionalnost-goda

Ответить
Развернуть ветку
Тинькофф

В статье есть вариант её озвучки нашим синтезом)

Ответить
Развернуть ветку
Цой жив

Хорошо если Тинькофф напишет бота, который научится понимать смысл комментариев

Ответить
Развернуть ветку
Цой жив
Ответить
Развернуть ветку
Олег Журавлев

Олежа ушел в озвучку ) а я думал гнусавый перевод уже все )

Ответить
Развернуть ветку
42 комментария
Раскрывать всегда