О качестве данных в цифровизации HR

Проблемы с качеством данных в той или иной мере свойственны всем отраслям, но особенно ярко и не единожды столкнулся с ними во время ведения проектов цифровизации HR в крупных корпорациях. Хочу поделиться..

Идея принимать решения о людях на основе анализа данных обсуждается давно, написаны десятки книг. Многие зарубежные (а теперь и отечественные) компании всерьёз начали применять данные не только в виде простых отчетов и индикаторов, но и более изощренным способом — через предиктивные модели (регрессионные или нейронки). И почти каждый раз — до 70% (imho) всех усилий лежит именно в подготовке и поиске данных, чтобы их использовать для принятия решений. Конечно, есть ещё вопрос «зачем?» — но оставим его пока за скобками.

А в чем проблема с качеством цифровых данных в HR? Вот мои топ-5 проблем с данными из мира больших корпораций, и их возможные причины:

  • Данных нет от слова «совсем». Помимо данных КДП в 1С не оцифровывается вообще ничего, и героические усилия предпринимаемые HR раз в год для подготовки простейшего годового отчета руководству сродни подвигу. Мне кажется, если нет внутреннего спроса на аналитику — значит не будет и данных.
  • Есть «важные» данные (влияющие на зарплату, трудовые договора, статистику в госорганы), а другие — «неважные». Поэтому к их ведению и качеству — такое же отношение. Например, они заполняются «через раз» в первичных системах. В результате, клиенты не видят полной картины и не понимают, зачем эти данные вообще нужны — и их интересы расходятся даже с интересами руководства, желающего получить полную HR-аналитику. Здесь вопрос обсуждения и выравнивания ожиданий.
  • Внесение данных «потом», а зачастую «задним числом». Иногда по причине, описанной в предыдущем пункте. Иногда — из-за отсутствия выстроенных бизнес-процессов, или незнания этих процессов конкретными исполнителями.
  • Кривая интеграция и рассинхронизация/отсутствие справочников. Даже если данные собираются в кадровых системах правильно и полно, до хранилища данных или отчетной системы они попросту не доходят в нужном виде. Или применяются жесткие меры нормализации (приведения к общим справочникам), и все тщательно введенные вручную значения превращаются в «Other». Это классика и основы, но о них спотыкаются повсеместно.
  • Неэффективность интерфейсов ввода. Старые версии учетных систем, неправильные региональные настройки зарубежных продуктов, устаревшие библиотеки и браузеры — иногда даже если хочешь ввести — не получается. Не говоря уже о контроле форматов при вводе — они реализованы крайне слабо, хотя современные web-based системы реализуют его весьма успешно.

Итак, что же со всем этим делать?

Позволю себе привести некие рецепты, не претендующие на полноту и детальность, но основанные на собственном (иногда болезненном) опыте:

  • Не пренебрегайте концептуальной моделью данных. Приходите ли вы на готовые системы, или внедряете новую — потратьте время на определение основных понятий, их признаков, объектов и измерений, мастер-справочников. В области HR для основных данных о персонале, для обучения и данных о кандидатах все еще хорошо работают реляционные модели — определите их сразу. Отталкивайтесь от моделей предоставляемых готовыми или первичными системами, но обязательно думайте о применении данных — иногда приходится насильно переназначать внутренние объекты другим данным даже в самых «крутых» и продуманных коробочных системах типа Oracle HCM или SAP HR.
  • Если у вас больше одной HR-системы — инвестируйте время в разработку хранилища данных или хотя-бы простой БД для отчетности. Ни одна самая продвинутая HR-система (возможно я ошибаюсь, но пока лично не сталкивался) не даст вам всего, что нужно заказчикам аналитических сервисов. Оперативная отчетность конечно будет, но обязательно (поверьте) придёт момент, в котором нужно будет быстро добавлять третьи данные, комбинировать отчеты в Excel — и вот тогда наличие минимальной БД сэкономит вам много часов. Достаточно простой бесплатной версии MS SQL, даже грамотно организованная MS Access + Power Query подойдет при небольшом объеме (хотя есть риск напороться на ограничения инструмента).
  • Потратьте значительные усилия на обучение конечных пользователей и написание 1-page инструкций (desk aids, памятки) — это сэкономит вам множество нервных клеток при разборе «косячных» данных потом. Пользователи из HR зачастую довольно тяжело овладевают новыми системами, поэтому быстрые вебинары и регулярные «напоминания» как пользоваться функционалом первичных систем будут более чем уместны.
  • Лучше сделать меньше аналитики, но более проработанной, чем замахиваться сразу на многостраничные dashboards. Попытайтесь проговорить на примере простых графиков в Excel с руководителями HR-функции — какие именно метрики и разрезы им нужны, а главное — зачем? Умение задать этот вопрос сэкономит вам много времени на сборе и обеспечения качества ненужных данных. Здесь нет универсального подхода, но порекомендую метод дизайн-мышления и создания нескольких прототипов/MVP с несколькими подходами к руководителю.

Надеюсь эти приёмы позволят вам быстрее и с меньшими "граблями" реализовывать проекты цифровизации и аналитики в области управления персоналом.

Пост про качество данных превратился в лонгрид, но действительно "накопилось"...

Начать дискуссию