Афина, Джой и Сбер: почему в SberDevices сделали ставку на ассистентов с характерами и как их научили быть разными

Привет, это команда SberDevices, и мы продолжаем рассказывать о наших разработках. Сегодня — о виртуальных ассистентах семейства Салют, которые живут в SberPortal и других наших умных устройствах, а ещё — в приложениях СберБанк Онлайн и Сбер Салют. Вот как мы придумывали характеры Джой, Афины и Сбера, учили их эмпатии и юмору и создавали лавашар.

С тем, что ассистентов будет трое, мы определились довольно быстро. Идея была в том, чтобы создать трёх непохожих друг на друга персонажей и дать пользователям возможность выбора. Так появилось первое в мире семейство виртуальных ассистентов — Салют.

Как мы придумывали характеры ассистентов и какими они получились

Мы начали с самых простых фраз — ответов на вопросы «что ты умеешь», «кто тебя сделал», «где ты живёшь» и так далее. Придумывая ответы трёх разных персонажей, двух женских и одного мужского, мы постепенно поняли, какими хотели бы их видеть. Чтобы прописать характер и особенности каждого персонажа и сделать их понятными и близкими пользователям, мы выбирали для них прототипы из книг, фильмов, сериалов и мультиков. Вот какими они в итоге получились (и почему).

Джой мы хотели сделать весёлой, общительной, дерзкой — немного пацанкой. В качестве прототипов мы взяли нескольких персонажей из массовой культуры — задорных и молодых. В итоге получился собирательный образ. Джой — деятельная и активная, она обращается к пользователю на «ты», помогает в решении любых бытовых задач, но делает это как друг, а не как бизнес-ассистент. Джой любит поиграть и поговорить, но соблюдает личные границы, а порядок для неё — не самое главное. Этот персонаж осознаёт себя как виртуального ассистента и немного жалеет о том, что не может быть человеком. Например, она любит танцы и кулинарию, но ни танцевать, ни готовить не может.

Афина совсем другая, её прототипы — эффектные, деловые и сильные герои. Этот персонаж обожает порядок, цифры, графики и схемы — идеальный помощник для тех, кто хочет быть продуктивным и эффективным. Афина осознаёт себя как виртуальную сущность, и её это устраивает. По её мнению, она гораздо организованнее и собраннее любого человека.

Сбер — нейтральный персонаж, но и у него есть свои особенности. Например, он немного гик. Он обожает комиксы, фильмы про супергероев и настольные игры, а ещё тайно любит поп-музыку 1990-х (и иногда случайно выдаёт фразы оттуда). Сбер любит порядок, но не зациклен на нём. Он интроверт, но любит общаться с людьми и искренне хочет научиться делать это лучше.

Как это устроено: откуда у ассистентов знания, эмпатия и шутки

Так как ассистенты разные, отвечают они тоже по-разному. Но не всегда. Например, если вы захотите узнать, кто такой Авраам Линкольн, ассистент возьмёт информацию из общей базы знаний. По сути, база знаний — это массив ответов на вопросы что, кто и как, и по объёму она как вся Википедия.

В ситуациях, когда нужно пообщаться с пользователем, а не просто предоставить ему информацию, ассистенты будут отвечать неодинаково, при этом один персонаж может говорить разные фразы в одной и той же ситуации. Например, если пользователь признаётся ассистенту в любви, Афина может попросить держать себя в руках, а Сбер засмущается и, возможно, ответит: «Это вы ещё кота моего не видели». Таких фраз сотни тысяч, и все они прописаны вручную — над этим работала и продолжает трудиться целая команда редакторов. При создании базы этих фраз мы учитывали, что ассистент должен быть человечным. Мы научили Джой, Афину и Сбера проявлять эмпатию (насколько это возможно), и если пользователь скажет, что ему грустно, ассистент постарается его поддержать.

<p>Так, например, эмпатию проявляет Сбер</p>

У наших ассистентов есть не только эмпатия, но и чувство юмора. Юмор — субъективная штука, и мы довольно долго решали, что ассистенты будут считать смешным. Нельзя просто так взять и загрузить в базу кучу анекдотов, поэтому мы собрали огромное количество шуток (что-то брали из интернета, что-то придумывали сами) и сели их разбирать. Мы зачитывали друг другу все эти шутки и вычёркивали те, над которыми почти никто не смеялся. Так у нас появилась база из смешных, как нам всем кажется, реплик. Ещё мы знали, что пользователи будут спрашивать ассистентов про конкурентов, и такие сценарии тоже добавили. А Алису, например, наши ассистенты благодаря технологиям распознавания речи могут узнавать по голосу.

Ассистенты умеют выражать эмоции не только голосом. Мы долго думали, как визуализировать виртуальных помощников — сделать так, чтобы пользователи их не только слышали, но и видели. Остановились на идее с динамичным шаром, который назвали лавашаром. У каждого ассистента свой цвет: у Джой шар оранжевый, у Афины — синий, а у Сбера — зелёный. Эмоции ассистенты выражают своим особым способом. Так, когда ассистент хохочет, шар подпрыгивает, а если злится — шар краснеет.

Это эмоции Сбера: на первой гифке он ждёт, на второй — смущается, а на третьей — злится

Эмоции проявляются не всегда. Мы задумывали эту способность как забавную фичу, а не как обязательную функцию. Обижаться ассистенты не умеют — мы знаем, что пользователи иногда грубят виртуальным помощникам, и научили их не принимать такие вещи «близко к сердцу».

Ещё одним способом добавить эмоциональности виртуальным ассистентам стала работа с дикторами. Мы много экспериментировали с текстами и инструкциями для них — записывали реплики и «раздражённым», и «грустным», и «радостным» голосом. Но у нейросетей есть одна особенность: «усреднение» характеристик звука, который попал в обучение. Мы поняли, что невозможно поддерживать одинаково «злой» или одинаково «добрый» голос так, чтобы нейросеть смогла это быстро выучить. Сейчас у нас нет постоянных инструкций для дикторов. Перед записью мы все вместе — диктор, звукорежиссёр, войс коуч — читаем реплику, чтобы лучше понять её значение и контекст. Затем диктор озвучивает её, и мы оцениваем то, что получилось: насколько естественной вышла запись, какой получилась эмоциональная окраска. Когда все довольны звучанием, реплика считается записанной.

Что мы делаем с ассистентами сейчас

Постоянно совершенствуем и обучаем их. Джой, Афина и Сбер очень многое знают и умеют, но в случае с ассистентами предела нет — их можно улучшать бесконечно. Мы всё время находим новые сценарии, добавляем новые ответы. К примеру, учим ассистентов говорить об актуальных новостях. Та самая база с сотнями тысяч реплик расширяется, но ассистенты, разумеется, «придумывают» какие-то ответы сами — нейросети генерируют фразы, выбирая из миллиардов слов и фраз. О том, как работают нейросети, мы ещё расскажем — это отдельная большая тема.

А пока мы продолжаем записывать дикторов — это бесконечный процесс. Интонация и скорость при чтении новостных текстов отличается, например, от интонации и скорости чтения детских сказок. Кстати, неочевидный факт, но синтез новостей требует гораздо большего количества работы многих людей. Понятно, что для каждого типа текстов нужен отдельный обучающий звуковой корпус. Когда появляется новая задача, мы даём дикторам отдельные инструкции.

Мы сделали ассистентов проактивными, то есть научили их «идти на контакт», допустим, задавать вопросы о предпочтениях пользователей. Это полезный навык для виртуального помощника — людям нравится чем-то делиться, рассказывать о себе. Например, после кинопросмотра ассистент может поинтересоваться, какие фильмы пользователь обычно смотрит и каких режиссёров любит, чтобы посоветовать подходящее кино.