Очистка данных: кейс Invitro

Invitro — частная медицинская компания в России, специализирующаяся на высокоточной лабораторной диагностике и оказании медицинских услуг.

  • Более 13 млн. пациентов в год
  • Более 1300 офисов в 6 странах — Россия, Беларусь, Казахстан, Украина
  • Более 800 серверов

Проблема

  • Общий размер клиентской базы на июль 2019 г. более 32 млн. записей
  • Каждый день операторы компании изменяют около 64 тыс. клиентских записей
  • Чрезмерные трудозатраты на обработку данных
  • Большое количество неполных и ошибочных данных в базе

Задача

  • Снизить влияние человеческого фактора при вводе и обработке контактных данных
  • Автоматизировать обработку, очистку и дедупликацию
  • Поддерживать гарантированное качество контактных данных клиентов

Решение

​Фрагмент сценария решения на платформе Loginom
​Фрагмент сценария решения на платформе Loginom
  • Источник входных данных — консолидированная база MDM-системы
  • Использовалось решение Loginom Data Quality
  • Применялись стратегии полного совпадения и нечеткого поиска, основанного на расстоянии редактирования Дамерау-Левенштейна
  • Очистка и дедупликация данных происходит каждые 5 минут в режиме on-line
  • Внесение обработанных "золотых" записей в базу осуществляется подключением к шине данных через публикацию WEB-сервиса
  • Сценарии решения улучшены для обработки записей, содержащих буквы украинского и казахского языков
  • Сформирована эталонная запись более чем по 60 параметрам

Результаты

  • MDM–система автоматически обрабатывает более 180 тыс. записей в день
  • Запуск обработки происходит по расписанию в фоновом режиме
  • Снижены издержки на поддержку качества клиентских данных
  • Существенно уменьшен процент попадания плохих и неполных данных в базу
3
2 комментария