Оценка персонала в VR: опыт одного эксперимента. Как приходит и уходит хайп
Сегодня стоит только упомянуть «инновации в оценке», как в воздухе немедленно возникает словосочетание «искусственный интеллект». Оно звучит в каждом докладе, в каждом R&D-плане и почти в каждом письме от провайдеров. И это вполне закономерно: ИИ сейчас на вершине хайп-цикла — обещает всё, умеет всё, и кажется, что вот-вот научится подбирать идеальных сотрудников быстрее, чем мы успеем открыть компьютер.
Но если отмотать время всего на несколько лет назад, этот же энтузиазм звучал в адрес других технологий. Вспомните VR. Казалось, что стоит надеть шлем — и процесс оценки превратится в захватывающее приключение, где компетенции измеряются не по ответам на вопросы, а по тому, как человек прыгает через огонь или тушит виртуальный пожар.
Прошло несколько лет, хайп схлынул, а след остался — и он гораздо интереснее, чем кажется. Потому что, оглядываясь на судьбу VR, можно увидеть некоторые закономерности, которые, вероятно, ждут и искусственный интеллект. Хайпы приходят и уходят, а уроки, которые они приносят, — остаются.
Именно поэтому я решила вспомнить один эксперимент, который относится к годам моей корпоративной карьеры и в котором я сама принимала активное участие — ещё до того, как ИИ стал новой звездой деловых конференций.
Вызов: поиск применения VR в оценке персонала
В 2018 году со мной связались коллеги — представители Центра технологий AR/VR (виртуальной и дополненной реальности) — и предложили провести совместный мозговой штурм на тему возможности проведения оценки персонала в виртуальной реальности с перспективой дальнейшей разработки прототипа теста в VR.
Предложение, что и говорить, было весьма привлекательным и выгодно отличалось от обычной рутины корпоративного оценщика. На тот момент компания успела реализовать множество проектов в области обучения в VR, а мир в целом — сформировать представление о VR как об оптимальном формате производственного обучения на тему обеспечения безаварийной работы оборудования.
Действительно, смоделировать пожар, утечку газа, разрыв трубы или что-то подобное обычными обучающими средствами невозможно. При этом именно в таких ситуациях персонал должен отрабатывать действия максимально быстро и чётко — так почему бы не помещать его в полностью цифровой мир, повторяющий реальный, и не добиваться 100% воспроизведения инструкций путём серии повторений?
Итак, в обучении прецедентов было множество, а в оценке их не было вовсе. Не было и представления о том, что, собственно, оценивать. Не секрет, что создание VR-симуляций — это дорого, не в пример дороже, чем разработка стандартных компьютерных тестов и опросников. Тест-симуляция должен был выигрывать у традиционных тестов по каким-то очень значимым признакам, а не проигрывать в стоимости разработки. И желательно было начать измерять нечто такое, что обычными методами не ухватывается или ухватывается плохо.
Об измерении принципиально новых свойств психики речь не шла, так как, во-первых, для этого нужна объёмная научная база, а во-вторых, так мы лишились бы возможности сравнения результатов, полученных в VR, с другими. Это не должно было быть и избыточно сложное свойство поведения или личности человека — что-нибудь вроде конфликтности или эмоционального интеллекта, так как моделирование в VR серии реалистичных ситуаций, в которых их можно было бы продемонстрировать, далеко увело бы нас от задачи создания прототипа.
Находка: «стремление к риску» как идеальный кандидат для теста-симуляции
Никаких простых способов решения нашей задачи не было, но мы были уверены, что рано или поздно оно найдётся. Проводили один мозговой штурм за другим, анализировали литературу, рыскали по сайтам провайдеров оценки, искали вдохновение в кино и музыке.
В конце концов составили топ-30 личностных свойств и психологических качеств для оценки, из которого извлекли-таки жемчужину — «стремление к риску» как тенденцию к поиску острых ощущений. Отсекли при этом множество не менее интригующих вещей — «Большую пятёрку» личностных качеств, стремление к трудностям и их избегание, непереносимость однообразия, отношение к ошибкам, ассертивность (умение сохранять эмоциональное равновесие), социально-перцептивную компетентность (способность к адекватной оценке других людей по их внешнему облику), скорость и точность реакции, характеристики внимания (стабильность, устойчивость, адаптивность) и памяти, локус контроля и так далее.
Чем нам понравилось «стремление к риску», так это востребованностью во всё том же производственном контексте — обычно соответствующую оценку проходят при подборе и продвижении представители рабочих профессий, операторы и машинисты сложных технологических систем и устройств, чья работа сопряжена как с объективными рисками, так и с огромными последствиями реализации этих рисков.
Оценивается это преимущественно с помощью опросников, и опросники в этом контексте весьма непродуктивны — там чаще, чем хотелось бы, даются социально ожидаемые ответы, и задаются вопросы про приём алкоголя и наркотических средств, что не добавляет им престижа в глазах кандидатов и сотрудников.
Результат оценки стремления к риску сотрудников — это чаще всего прогноз действий людей в нестандартных ситуациях и набор профилактических мер, принимаемых компанией, чтобы минимизировать возможности рискованного поведения на своих рабочих местах. В общем, выбор состоялся-таки. И мы перешли к проектированию теста на склонность к риску в VR.
Воплощение: создание игровой симуляции
Следующие этапы бурного обсуждения помогли нам сочинить игровую легенду для будущих участников исследования: вот есть заброшенный офис, в офисе находится 15 забытых папок с важными документами. Нужно собрать как можно больше папок за ограниченное время, не потеряв при этом жизнь (100 «сердечек»).
Каждую из папок можно добыть, действуя более или менее безопасно — пройти сквозь огонь или предварительно воспользоваться огнетушителем, прыгнуть через пролом в полу или пойти в обход, забежать в загазованную комнату просто так или в противогазе. Более безопасные способы действий предполагали большие временные затраты, поэтому наиболее осторожные участники не укладывались в отведённое время и не успевали собрать все 15 папок. Наиболее амбициозные и рискованные тоже не доходили до конца, так как их игровые жизни заканчивались раньше.
Соответственно, только те, кто придерживался некоего серединного пути, могли достичь игровой цели по сбору папок с сохранением жизни. Ограничения во времени были нужны нам ещё и для того, чтобы лишить участников возможности долго думать и рассуждать по ходу прохождения симуляции. Мы рассчитывали на спонтанные реакции — и мы их получали.
Зачем нам понадобились именно 15 папок? Затем, чтобы приравнять процесс сбора каждой из них к тестовому заданию в опроснике. В классической психометрике считается, что измерение какого-либо качества возможно, если на соответствующую шкалу предложено от 10 заданий с доказанной измерительной способностью.
У нас не было доказательств измерительной силы наших заданий, мы хотели проверить её одновременно с проведением пилотного исследования. А значит, задания разрабатывали с запасом.
Испытание: пилотное исследование и неожиданный результат
Как мы проводили само исследование: приглашали добровольцев из числа коллег в офис, надевали на них VR-шлем, приглашали к прохождению симуляции (инструкция и пробная папка для поиска давались уже внутри неё), вели протокол их поведения (записывали все высказывания и реакции), далее проводили с ними стандартизированное интервью (спрашивали о впечатлениях, сложностях и т.д. — как обычно в таких случаях) и просили пройти классический опросник на склонность к риску для последующего сравнения результатов.
Каждое действие участников в контексте поиска папок мы оценивали по шкале рискованности от 1 до 6 уже постфактум, далее формировали итоговые баллы и параллельно анализировали качество каждого из заданий — было важно, чтобы они решались несколькими способами и указывали на различия между участниками.
В завершение мы посчитали корреляцию между результатами двух измерений (в VR и классического опросника) — она оказалась слабо положительной, но значимой. Пилотный проект мы завершили, признав успешным, ведь нам удалось создать работающий прототип оценочной методики в VR — на тот момент единственной в стране.
Что было дальше? Мы перешли в новую исследовательскую фазу. Дело в том, что значительное количество наших участников в ходе обратной связи жаловались на побочные эффекты от прохождения симуляции — головокружение, боль в висках, резь в глазах. Наличие таких комментариев сделало перспективу внедрения VR-тестирования в производственный цикл туманной, ведь негативное воздействие на самочувствие участников — это то, чего нам хотелось меньше всего. Чтобы наши сотрудники, работающие на опасных объектах, шли после тестирования на рабочие места с больной головой? Даже представить себе такое невозможно.
Поэтому следующим этапом стало формирование обзора мировой литературы на тему практического применения VR, поиск преимуществ и ограничений метода в разных сферах, а также выделение предикторов плохого самочувствия у разных людей. Ведь на побочные эффекты жаловались всё-таки не все наши смелые добровольцы, некоторые из них, напротив, имели большой опыт знакомства с VR и чувствовали себя абсолютно комфортно.
Так мы установили наличие феномена киберукачивания (cybersickness) и выделили ряд особенностей людей, у которых он чаще всего проявляется. При этом работающих способов минимизировать проявления киберукачивания у людей, которые ему подвержены, мы не нашли. И проект встал на смарт-паузу.
Осмысление: уроки за пределами хайпа
Перейдём к общему контексту применения некогда инновационных методик оценки. Во-первых, это тема, на которую сами специалисты по оценке могли говорить бесконечно и которая вызывала живой интерес у представителей бизнеса, попавших в ловушку привлекательности новизны.
Во-вторых, инновации в этой сфере, как и любые другие, жили по законам хайп-цикла и к настоящему моменту почти ушли из информационного поля.
В-третьих, это минное поле, на котором можно было вдруг натолкнуться на ограничения неоценочного плана, как это получилось у нас с киберукачиванием в VR.
В-четвёртых, неизбежно возникали вопросы влияния опыта участников на результаты исследования и этичности технологии. В случае с VR наличие опыта прохождения симуляций в моменте давало набор преимуществ, а ухудшение физического состояния некоторых людей стало мощным барьером для масштабного внедрения.
Панорама инноваций: от голоса до нейроинтерфейсов
На неизбежном перепутье между прозрачностью и этичностью, хайповостью и привычностью мы оказывались и тогда, когда говорили об иных, на первый взгляд любопытных технологиях в оценке:
- Цифровой след: анализ цифровой активности в виде текстов писем или активности в сети;
- Социальные сети: анализ активности в социальных сетях по лайкам, комментариям, подпискам и иным реакциям;
- Голосовые технологии: анализ звучащей речи при ответе на заданный роботом набор вопросов и формирование профиля компетенций на этой основе;
- Видеоинтервью: анализ поведенческих проявлений на видео (звучащая речь, движения, мимика, положение в кадре при ответе на заданный набор вопросов);
- Нейроассессмент: замеры сердечного ритма, дыхательной активности, движений глаз, активности мозговой деятельности в ходе решения игровых задач;
- Оценка по фотографии: от оценки способности определять характер другого человека по внешнему виду до оценки личностных свойств самого обладателя фото.
Особенно интересно, что при использовании порой весьма навороченного и дорогого оборудования, сложных и высокоинтеллектуальных математических моделей в результате применения примерно любых инновационных методик оценки мы приходим ровно к тем же результатам, что и при применении классических: личностные особенности, компетенции, прогноз успешности на позиции. Так если нет никакой разницы, то зачем платить больше?
Итог десятилетия: что осталось за бортом
С момента, когда перечисленные технологии сотрясли рынок своим появлением, до момента написания этого материала прошло около 10 лет. Масштабного распространения они не получили, хотя стартапы на этом поприще за рубежом как будто продолжают появляться.
При этом почти совсем рассосались те, что связаны с социальными сетями и иными цифровыми следами — с одной стороны, этому препятствуют регуляторы и законы о персональных данных, с другой — сами владельцы социальных сетей, которые выступают резко против сбора данных о владельцах профилей.
Много лет назад мы с ещё одним коллегой придумали шуточный термин «социально-сетевой интеллект» и описали его с точки зрения, отдалённо напоминающей психологическую. Обладатель социально-сетевого интеллекта, по нашему мнению, критически относился к новостным публикациям, взвешенно подходил к публикации репостов, вовремя останавливался при развитии конфликтного диалога — и, конечно, был проницателен относительно общей степени адекватности тех, с кем вступает в общение, а также мог реалистично описать восприятие его имиджа в Интернете другими людьми.
Мы пошли дальше и разработали методику оценки социально-сетевого интеллекта для рекрутеров — ведь именно для них умение корректно оценивать профили кандидатов является профессионально важным навыком. Те, чьи профили мы предъявляли респондентам для оценивания по набору психологических качеств, предварительно дали нам на это свои согласия.
Получилось интересное развлечение на несколько недель и для нас, и для обладателей профилей — но не более того. Сейчас оценка рекрутерами и сотрудниками служб безопасности личных профилей кандидатов в социальных сетях — это откровенная «серая зона», но по критерию общей адекватности она всё-таки ведётся.
Голосовые технологии на российском рынке нашли применение в ряде продуктов — ботов, которые проводили телефонные интервью, оценивали недоступные человеческому слуху микроизменения в голосе (пики, плато) и формировали отчёты по компетенциям или рискам. В вопросах постепенно увеличивался уровень напряжения, а в ответах респондента фиксировалось либо преобладание стресса над энергией, либо энергии над стрессом, либо их баланс.
Ключевая проблема этого метода на практике — отсутствие очевидной валидности (face validity), то есть готовности респондента признать, что анализ голоса действительно является подходящим способом для оценки его компетенций. И хотя концепция очевидной валидности не совпадает с научной концепцией валидности, это очень желаемый элемент для любого теста, который применяется в бизнес-контексте.
Что касается научных оснований, то соответствующие статьи (например, Гусева А.Н. и Бондаренко Я.А.) по-прежнему ничего не говорят напрямую о возможности осуществить замер по компетенциям с помощью анализа голоса. Они ограничиваются указанием на выделение в голосе эмоционального и когнитивного напряжения, а также риска сокрытия информации или неискренности. Голосовой анализ, по их мнению, может служить адекватной и надёжной заменой полиграфа — но это по умолчанию очень узкая сфера применения (силовые структуры, финансовые организации, закупочные подразделения в государственных компаниях и т.п.).
Автоматизированная оценка видеоинтервью — распространённая, намного более невинная и очевидно валидная технология, так как заключения об уровне выраженности компетенций делаются здесь по результатам анализа больших данных.
Если группа людей прошла оценку компетенций стандартными методами, а также записала интервью с ответами на поведенческие вопросы, то появляется объективная возможность сравнения и прогнозирования — такой механизм использовался, например, в управленческом конкурсе «Лидеры России» и подтвердил свою эффективность.
Что же касается нейроассессмента и оценки по фотографии, то они остались «чёрным ящиком» — скорее маргинальными, нежели признанными технологиями.
Инсайты
- Применение инновационных методик может иметь ограничения неоценочного плана — например, подверженность многих людей эффекту киберукачивания делает невозможным масштабное распространение технологии VR.
- Ключевые дилеммы, которые мы разрешаем в ходе применения инновационных оценочных методик: прозрачность vs точность, хайповость vs привычность.
- Если результат оценки един при применении любых методов, то к нему стоит идти наиболее дешевым, прогнозируемым и очевидно валидным способом.
- В мире, где можно установить корреляционные связи на любом материале и всё связать со всем, не всеми связями имеет смысл пользоваться.