«Тинькофф» стал продавать корпоративным клиентам свою технологию синтеза и распознавания речи Статьи редакции
С помощью Tinkoff VoiceKit можно создавать голосовых помощников, автоматизировать работу колл-центра и озвучивать видеоролики.
Группа «Тинькофф» начала продавать корпоративным клиентам собственную речевую технологию Tinkoff VoiceKit, с помощью которой можно преобразовывать голос в текст и синтезировать голос из текста. Об этом vc.ru рассказал представитель компании.
«Тинькофф» разрабатывает технологию распознавания речи с 2016 года, а технологию синтеза речи с 2018 года (на основе таких моделей, как WaveNet, Tacotron-2 и Deep Voice). Для обучения банк использует терабайты данных и десятки часов человеческой речи, объяснил представитель группы.
Заявку на подключение технологии клиенты могут оставить на сайте Tinkoff VoiceKit. Для образовательных учреждений и студентов «Тинькофф» обещает предоставлять технологию бесплатно. Для остальных тариф составляет 40-45 копеек за распознавание минуты двухканального аудио, в планах также ввести посекундную тарификацию. Стоимость синтеза речи банк пока не определил. Для сравнения, тариф на распознавание речи с помощью технологии SpeechKit от «Яндекса» составляет 60 копеек за минуту двухканального аудио.
«Тинькофф» использовал речевые технологии для создания голосового помощника «Олега», а также для анализа качества обработки обращений клиентов в колл-центр и борьбы с мошенничеством. По версии компании, Tinkoff VoiceKit можно использовать для:
- Создания голосовых помощников.
- Создания программных роботов для автоматизации работы колл-центра.
- Записи аудиокниг и озвучка видеороликов.
- Создания приложений для людей с ограниченными возможностями.
- Перевода звуковых записей публичных выступлений в текстовый формат.
Так хорошо начал, но не закончил фразу...
"...Не то, чтобы это всё было нужно в поездке, но раз начал коллекционировать бигдату, то иди в своём увлечении до конца. Единственное, что меня беспокоило — это эфир. В мире нет никого более беспомощного, безответственного и безнравственного, чем человек в эфирном запое. И я знал, что довольно скоро мы в это окунёмся."
ОБАЛДЕННО! Мне даже больше чем Алиса и новый Гугл-ассистент нравится.
Как будто Мориарти из Шерлока Гая Ричи говорит. Потрясающе.
Вы (Тинькофф) серьезно?
Пару недель назад я менял пин-код от карты после беседы с консультантом Тинькова по телефону. Девушка вежливо попросила оставаться на линии и следовать подсказкам голосового помощника. Голосовой ассистент попросил сказать "да", чтобы подтвердить пин-код. Этот банальный шаг стал адским мучением в пути 25-минутной попытки найти решение. Подтвердить свое решение ответив " да" у меня так и не получилось. Пробовал говорить четко, громко, орал, шёпотом - все тщетно.
Высокие технологии говорите, ага...
Максим, ну а как ещё вас заставить говорить 25 минут для пополнения базы голосов бигдаты?
Если только для анализа ненормативной лексики и деления клиентов на терпеливых и не очень)
Нет, они возьмут слепки голоса, звуки, интонации, чтобы потом робот мог говорить вашим голосом.
Эээ, у них в приложении пин-код меняется за два клика
Вот после сбоя в смене пин-кода и блокировки карты я и позвонил на горячую линию.
Хорошо, что в ЗАГСе такого конфуза не было.
Здравствуйте. Система может некорректно воспринимать ваш выбор из-за постороннего шума. Сожалеем, что столкнулись с неудобством. В этом случае можно сразу задать удобный ПИН-код через личный кабинет или приложение.
«Потому что тихо должно быть в библиотеке»
Посторонних шумов не было. Я регулярно пользуюсь другим голосовым помощником и проблем нет даже в автомобиле с включенной аудиосистемой.
Замечательно, что вы откликнулись, поэтому думаю вы обязательно пройдете все шаги от звонка оператору из мобильного приложения и оцените ошибки в определении оставшегося времени ожидания и скорости решения вопроса смены пин-кода. Уверен, что время решения вопроса по телефона можно значительно сократить до 5 минут, вместо 25.
Это не синтез речи, это voice recognition. Меня тоже бесят, когда просят дать команду голосом, ты как идиот должне сначала придумать,что сказать, а затем по слогам все это произносишь. Со стороны люди в шоке.
Зачем платить, за то что уже а инете валом)
У нас было 2 пакетика травы, 75 ампул мескалина, 5 пакетиков диэтиламид лизергиновой кислоты, или ЛСД, солонка, на половину заполненая кокаином и целое море разноцветных амфитаминов, барбитуратов и транквилизаторов, а так же бутылка текилы, бутылка рома, ящик пива, пинта чистого эфира и две дюжины пузырьков амил нитрита...
Комментарий недоступен
Скоро речевые технологии будут в fix price продаваться. И родители будут выбирать имя для ребёнка, которое не совпадает с каким-нибудь голосовым помощником.
ситезирует на удивление неплохо. но возможно только на демонстрационном тексте.
может среди комментаторов кто нибудь пробовал использовать модель wav2letter++ для распознования русского языка? вроде показатели распознования на инглише выше чем у аналогичных моделей
Интересно, почему с интонацией у них у всех так плохо? Особенно когда интонируется текст знаками препинания. А то и здесь, и на остальных движках создаётся ощущение, что всё что после любого знака препинания, читается как новое предложение, и от этого через пару минут мозг взрывается — хотя сам синтез качественный весьма.
нет теории интонации, поэтому все игнорят эту тему
Когда синтезатор начнет считывать содержание текста и эмоциональный окрас, тогда можно будет услышать интонацию. Сейчас же это подбор звука к разным сочетаниям символов.
Это очень похоже на то как читает ребенок, когда его заставляют родители. Не важно что, главное издавать звуки которые соответствуют буквам в книге.
Ну невпопад она уже и сейчас есть, есть ударения, есть акценты, просто нет ощущения привязки этой интонации к тексту.
Вероятно это остатки интонаций диктора с которого делали слепок голоса.
Интонации, ударение - в этом вся сложность, поэтому синтерзированный голос легко распознать.
Наверное, потому что надо сначала научить робота "понимать" смыслы, подтексты. Пока с этим плохо. Хотя для меня (диктора по профессии) безусловно хорошо :)
Я бы пользовался такой озвучкой для видео роликов.
Если не ошибаюсь на vc была возможность прослушивания статей. Довольно неплохое качество речи было. Отключили?
В приложении, вроде бы, все статьи
Нет, не все. Конкретно сейчас некоторые статьи ниже в ленте не имеют этой возможности.
Почему-то только на некоторых есть озвучка, а не на всех.
Какие языки поддерживаются?
На данный момент в Tinkoff VoiceKit мы предоставляем только русский язык.
Не можем с вами связаться, форма обратной связи на сайте молчит.
Не очень понятно, где применить эту технологию:
- Если озвучка статей, то с такой скоростью прочтение каждой статьи займет 10-15 мин, вместо 1-2 мин.
- Если автоматизация службы поддержки, то это из сериии "я не навижу своих клиентов"
- Если чат боты, то они нафиг не нужны в таких колличествах
Интересно было бы увидеть юзеркейсы
Автоматизированные звонки.
"Здравствуйте, Иван, ваш рейс номер XXX отменен. Просьба обратиться в тиньков.тревел" )
Чтобы все вокруг слышали? В голову приходит только кейс, когда голос зачитывает SMS-ки с телефона во время вождения автомобиля. Но вроде, это функция любого телефона.
Вот поэтому я в телефон молчу!
Комментарий недоступен
Жалко, что искусственный "пососи потом проси" интеллект в комплекте не идет.
Халясё та как ... ! Чукча все слышит аднака ... !!!
Раньше же не VC была кнопка "Послушать статью", тоже от Тинькофф?
Есть и сейчас. Работает на Яндексе https://vc.ru/ask/50959-audiostati-na-vc-ru-bred-ili-funkcionalnost-goda
В статье есть вариант её озвучки нашим синтезом)
Хорошо если Тинькофф напишет бота, который научится понимать смысл комментариев
Олежа ушел в озвучку ) а я думал гнусавый перевод уже все )