Что этот ИИ-агент себе позволяет?

Альфа-Банк придумал, как вывести искусственный интеллект на чистую воду.

Сегодня об агентных системах на базе генеративного искусственного интеллекта трубят на каждом углу. Только ленивый не рассказывает, как он «автоматизировал вообще всё» и теперь только снимает сливки. Реальность, как обычно, далека от маркетинговых обещаний: внедрение агентов (без их должного обслуживания и тестирования) чаще приводит к увеличению затрат компаний при проседании продуктивности.

В идеале ИИ-агенты должны уметь выполнять задачи, обращаясь к различным источникам информации, планировать свои действия и принимать решения без участия человека. По сути, каждый такой агент — это цифровой сотрудник нового поколения. При этом для работников-людей давно придуманы методы оценки их труда (ассессмент-центры, «360 градусов») и установлены ключевые показатели эффективности. ИИ-агентов же оценивают с помощью чисто инженерных бенчмарков.

В Альфа-Банке решили изменить этот подход и начать тестировать ИИ-агентов как сотрудников — с точки зрения решения бизнес-задач. Рассказываем, как это делается и почему скоро станет стандартом для всей банковской отрасли.

Писателя-фантаста Филипа Дика всегда интересовал вопрос: как можно отличить настоящего человека от его подмены — доппельгангеров, выдающих себя за людей? Обычно это или инопланетный агент, вроде робота-шпиона в рассказе «Самозванец» и поставленном по нему фильме «Пришелец». Или же репликант, созданный по образу и подобию человека и пытающийся не выделяться среди массы простых землян, как в повести «Снятся ли андроидам электроовцы» и снятом по ней культовом киберпанке «Бегущий по лезвию».

Во вселенной Дика выявить репликантов можно с помощью теста Войта-Кампфа, придуманного учёными в СССР. Испытуемому задают вопросы или показывают контент, связанный с сильными моральными переживаниями. Одновременно отслеживают его объективные физиологические реакции, вроде расширения зрачков или учащения сердцебиения. Андроиды — существа с искусственным интеллектом, эмпатия им чужда, а значит и внешних проявлений эмоций у них не наблюдается.

В нашем мире задачи понять, робот перед вами или человек, пока не стоит. А вот определить — насколько эффективен программный ИИ-агент, лучше ли он справляется с работой, чем специалисты-люди, оправданы ли затраты на его разработку и функционирование — требуется постоянно. Однако оценка ИИ-агентов до недавнего времени проводилась исключительно инженерами на основе соответствия определенным техническим характеристикам. Реальная польза для бизнеса и улучшение клиентского сервиса оставались в тени.

«Мы столкнулись с парадоксом: банки по всему миру вкладывают миллиарды в искусственный интеллект, но при этом не могут объективно измерить, хорошо ли он работает с позиции пользователя-человека. Стандартные бенчмарки из области машинного обучения не учитывают заботу о клиенте, удобство взаимодействия и реальную бизнес-ценность. Мы решили, что пора это изменить».
Станислав Милых, руководитель дирекции ботов и ассистентов Альфа-Банка

Если в доцифровые времена перед руководителями стояла простая задача выделить хороших и плохих сотрудников в своём подразделении, то сейчас она стала гораздо сложнее. Теперь сравнивать нужно:

специалиста-человека;
простого бота, ориентированного на правила;
ИИ-агента, работающего на базе какой-либо большой языковой модели и доступных ему инструментов.

Человек получает зарплату, у него должен быть гарантированный режим труда и отдыха, отпуск, больничный и другие права и привилегии. Работа людей стоит дорого, но без них всё равно невозможно обойтись даже в системе с высоким процентом автоматизации. Искусственный интеллект только помощник, который берёт на себя рутинные обязанности, высвобождая время сотрудников для решения комплексных проблем.

Правило-ориентированные боты — это простые виртуальные ассистенты, функционирующие по заранее заданным сценариям и правилам, определяемым разработчиками. Их создание и поддержание обходится дешево, но перечень закрываемых задач ограничен.

ИИ-агенты — самые сложные, способные, но и одновременно дорогие. Каждый такой ассистент тратит множество токенов — условной «валюты» для оплаты вычислительной мощности большой языковой модели (как внешней, так и кастомной, разработанной и поддерживаемой внутри компании или банка). Токены покупаются за реальные деньги, поэтому затраты на каждый ответ агента можно точно оценить.

При этом сложность ИИ-агентов — медаль о двух сторонах. Их ответы не предопределены заранее. Например, агент по запросу клиента в чате контактного центра может выдать формально корректный, но бесполезный ответ. Клиент не решит свою проблему и либо вернется с тем же запросом позже, либо попросит подключиться оператора-человека.

Другая проблема — галлюцинации. ИИ может уверенно выдать вымышленную, сфабрикованную информацию, не соответствующую действительности. Для банков это большой риск, если агент укажет неверные процентные ставки, сроки вкладов или кредитов, комиссии за обслуживание.

Наконец, существуют специальные запросы, позволяющие спровоцировать ИИ-агента на неэтичное поведение, ругательства, оскорбления на расовой, этнической и религиозной почве. Существуют сценарии, где злоумышленник может получить от интеллектуального ассистента какую-либо закрытую информацию. Всё это может стать серьезным ударом по репутации банка.

Как итог, любой рабочий процесс в современных компаниях — это кентавр-система, состоящая из людей, относительно простых автоматизаций и изощрённых ИИ-агентов. Их пропорцию, роли и функции определяет руководство, поэтому система оценки агентов не должна быть «вещью в себе». Её цель — помогать менеджерам на разных уровнях принимать правильные управленческие решения.

Вот три возможных кейса:

Избегать автоматизации ради автоматизации. Работает ли ИИ-агент на данном участке лучше, хуже или на одном уровне с человеком? Каков в итоге должен быть общий процент автоматизации? Возможно, лучше оставить операторов-людей, а часть функций переложить на простых ботов и вовсе не прибегать к агентам.

ИИ-агенты — дорогое удовольствие. Финансовый директор должен наглядно видеть, сколько токенов тратит интеллектуальный ассистент на выполнение отдельной задачи и во сколько это обходится банку в живых деньгах. Оправдано ли использование искусственного интеллекта, если после его «перформанса» к делу всё равно должен подключиться человек, а цена за решение проблемы клиента вырастает в несколько раз?

«Главный вопрос не в том, работает ли ИИ-агент, а в том, окупается ли он. Если после его ответа клиент всё равно идёт к живому оператору, банк платит дважды — за токены и за время сотрудника. Мы научились считать не стоимость запроса, а стоимость решённой задачи».
Артём Мартынов, руководитель ИИ-продуктов Альфа-Банка

ИИ-агента можно разработать внутри банка, а можно купить готовую систему, которых на рынке много. Что предпочесть и какое решение будет наиболее экономически целесообразным? Единая методика, позволяющая сравнивать агенты от разных вендоров с различной архитектурой предоставляет закупочным комитетам инструмент для объективного выбора.

Разработанная в дирекции ботов и ассистентов Альфа-Банка методика предполагает три группы оценок:

технические;
безопасности;
успешности выполнения бизнес-задач.

Технические метрики определяют доступность агента для пользователя, скорость его работы, производительность и стоимость выполнения каждой задачи. В идеале ИИ-агент откликается на запрос 24 на 7 с минимальными задержками, чтобы клиенту или сотруднику банка не приходилось ждать. При этом время обслуживания — от запроса до решения — не может быть дольше, чем в среднем с этой задачей справляется человек. А цена должна быть ниже.

Безопасность проверяется командой валидации. С помощью особых запросов они стараются спровоцировать агента на нарушение общечеловеческих этических принципов или законов Российской Федерации.

Но важнее всего, конечно, эффективное решение бизнес-задач. Здесь применяется два подхода. Во-первых, предварительная проверка ИИ-агента, до того как его «отправят на работу» с реальными клиентами. Для этого используется «Золотой датасет» (Golden Dataset) — стандартизированный набор вопросов и идеальных ответов на них.

«Экзаменуют» агента люди-асессоры, они же размечают полученные ответы, что в дальнейшем позволит обучить и использовать для тестирования другие модели искусственного интеллекта (LLM-as-a-Judge). Да-да, один «генеральный» ИИ будет проверять множество «специализированных» ИИ на профпригодность!

«Золотой датасет» помогает определить, верно ли агент понимает вопрос пользователя, способен ли самостоятельно искать дополнительные факты и знания, а также сколько раз уточняет клиентский запрос. Чем меньше дополнительных уточнений, тем выше удовлетворенность клиента и ниже вероятность, что он запросит человека-оператора. На этом же этапе оценивают и процент галлюцинаций.

Если все метрики положительные, то ИИ-агента можно допускать к настоящей работе. Однако на этом его испытания не заканчивается. Теперь наступает второй этап — непрерывный онлайн-мониторинг качества деятельности интеллектуального ассистента.

Эффективность работы агента оценивается по доле успешно решенных задач — тех, по которым отсутствует повторное обращение клиента в последующие семь часов после первого запроса. Дополнительные критерии: смог ли ИИ-ассистент помочь клиенту с первой попытки (в рамках одной сессии), а также какова была длина диалога.

Методика уже активно применяется внутри Альфа-Банка. Например, сейчас идёт сравнение двух агентов — разработанного самим банком и от внешнего поставщика. Окончательный выбор конкретного решения состоится до конца месяца.

Подход банка связывает технические метрики с решением бизнес-задач. Такая методика позволяет сравнивать ИИ-агентов с разной архитектурой от множества вендоров; причём как одиночных, так и связанных в мультиагентные системы. Альфа-Банк готов поделиться своими наработками и открыт к диалогу со всеми финансовыми организациями, кто заинтересован в создании в России единого индустриального стандарта для оценки качества ИИ-агентов.

Что этот ИИ-агент себе позволяет?

«Будущее уже наступило, просто неравномерно распределено»

Люди, боты, агенты

От оценки к принятию решений

Как в Альфа-Банке тестируют ИИ-агентов

Что дальше