Лучше, чем Excel: сервис сравнения клиентских списков

DaData.ru сделала сервис, который сравнивает списки контактных данных. Он берет несколько excel-файлов, ищет пересечения, объединяет списки в один и отмечает, откуда что взялось. Работает умнее «Экселя»: не боится транслита, опечаток, разных форматов телефонов с адресами и вообще молодец.

Лучше, чем Excel: сервис сравнения клиентских списков

Прежде чем развернуться со статьей вовсю, выложу багаж: мы сгоряча сделали полезный сервис, но не уверены в численности аудитории. Этот материал — попытка измерить спрос, поэтому спасибо за похвалы и критику в комментариях. А теперь — начнем.

Бизнесу порой нужно сравнить списки клиентов: найти совпадения по ФИО, адреса́м, телефонам, емейлам. Вот примеры сценариев:

  • для каждого товара или услуги взять перечень покупателей и получить сводный список. Чтобы понять, что кому допродать;
  • понять, кто из приглашенных на событие зарегистрировался;
  • сравнить списки участников мероприятий и найти постоянных;
  • убрать существующих клиентов из списка лидов;
  • проверить клиентов по черному списку.

Чаще других списки сравнивают те, кто массово работает с группами клиентов: маркетологи, продажники, организаторы мероприятий, менеджеры колл-центров.

Обычно для таких целей используют Excel с его чудесной функцией ВПР — она ищет данные в строках, в том числе по формулам. Мы и сами так делали, пока не надоело.

Excel не так уж хорош в сравнении списков

Спору нет, Excel — светлый взлет мысли разработчиков MS. Продукт великий, но списки сравнивает так себе.

ВПР не справится, когда мало удалить лишние «черточки», кавычки и скобки. Попробуйте с «Экселем» и формулами разобраться, что эти значения равны.

  • «Max Pimenov» и «Максим Пименов»;
  • «+7 916 823-34-45» и «моб 9168-233-445»;
  • «maximp@dadata.ru» и «maximp@dadataюкг»;
  • «Нск, Коммунистичся 10» и «424000, г. Новосибирск, ул. Коммунистическая, д. 12, кв. 43».

Самый ад — адреса́, которые все пишут как бог на душу положит. С ними Excel и вовсе беспомощен.

Excel сравнивает не более двух списков за раз и только по одному столбцу. Просто напомню параметры функции ВПР: искомое значение (одно); диапазон для поиска значения; номер столбца (один) в диапазоне с возвращаемым значением; признак приблизительного совпадения.

Есть два списка с ФИО, емейлами и телефонами, их нужно сравнить по емейлам. Не вопрос, Excel справится.

А теперь чуть усложним:

— списков не два, а пять;

— сравнить нужно по ФИО + номеру телефона.

Искать «Экселем» будет как минимум неудобно.

Мы не знаем, как обойти эти ограничения «Экселя». А хотелось бы: люди записывают одни и те же данные в очень разных форматах, а списков часто больше двух.

«Дадата» сравнивает до пяти файлов, по нескольким столбцам сразу

Теперь покажу, как работает «Дадата».

Для начала бедолага, которому надоело сравнивать контакты в полуручном режиме, загружает один или несколько excel-списков.

Можно загрузить и один файл. Если «Датата» найдет внутри дубли, она их «схлопнет» в единые записи
Можно загрузить и один файл. Если «Датата» найдет внутри дубли, она их «схлопнет» в единые записи

Сервис понимает такие контакты:

  • ФИО;
  • название (юрлица, магазина и так далее);
  • адрес;
  • телефон;
  • емейл.

Как только пользователь выбрал, по каким столбцам сравнивать, начинается магия и немного математики.

«Дадата» сравнивает записи по любому набору контактов: только по ФИО, по емейлу и телефону, по всем столбцам сразу
«Дадата» сравнивает записи по любому набору контактов: только по ФИО, по емейлу и телефону, по всем столбцам сразу

Первым делом сервис приводит все значения к одному знаменателю: адреса́ — к стандартизованному формату Почты России, телефоны — к полной форме с +7, в именах исправляет опечатки и транслит. В общем, готовит контакты к сравнению.

После этого «Дадата» стремительно сравнивает записи в файлах, для каждой пары назначая баллы похожести. В зависимости от количества баллов сервис делит записи на уникальные, одинаковые и похожие. Статистику показывает на экране.

Пользователь заранее видит, что творится в файлах, сколько там совпадений. И сам решает, нужно ли платить за объединение списков
Пользователь заранее видит, что творится в файлах, сколько там совпадений. И сам решает, нужно ли платить за объединение списков

Допустим, пользователь видит прок от сравнения и решает: неплохо бы скачать результат. Тогда «Дадата» создает итоговый файл.

Уникальные записи уходят в итоговый список как есть. Одинаковые сервис объединяет, собирая в единую запись всё из родительских.

Остаются контакты, с которыми «Дадата» не определилась: какие-то баллы похожести набрали, но для ярлыка одинаковости маловато. Без спроса объединять похожие записи нехорошо, но оставлять совсем уж без пометок тоже неправильно. Поэтому сервис группирует такие контакты, не объединяя. Их проверяют вручную, чтобы разобраться — одинаковые или все-таки разные.

«Дадата» собрала контакты, «размазанные» по разным файлам. Совпадения искала по ФИО и номеру телефона, а можно было и емейл подключить
«Дадата» собрала контакты, «размазанные» по разным файлам. Совпадения искала по ФИО и номеру телефона, а можно было и емейл подключить

С клиентами в итоговом списке делают что затевали: обзванивают и допродают товары, банят из-за попадания в черный список, еще раз приглашают на мероприятие тех, кто не зарегистрировался.

Технологией пользуются «Сбер», Yota, «Альфастрахование»

Изначально мы сделали алгоритм сравнения для федеральных компаний: банков, телекома, страховых. Кроме тех, кто в заголовке, им пользуются «Открытие», «Мегафон», «ВТБ Страхование».

Цена ошибки в бизнесе вроде банковского чертовски высока.

Центробанк не церемонится при проверке отчетов, поэтому ошибки обходятся в миллионы рублей.

Поэтому алгоритм видит совпадения, даже если данные в разных списках выглядят очень по-разному:

  • ловко находит ошибки в неславянских именах;
  • склоняет тюркские фамилии с окончаниями вроде «-заде»;
  • знает устаревшие названия улиц;
  • расшифровывает «НиНо» и «Мск»;
  • находит город по индексу.

В новом сервисе «Дадаты» — та же технология, только адаптированная для малого и среднего бизнеса. Различия в деталях: например, банки загружают данные не в Excel, для них делаем прямую интеграцию с базами данных. Но за другие деньги.

Поэтому готовый список можно брать в работу, не проверяя. Ну или проверить, если хочется.

На втором листе в итоговом файле сервис группирует похожие и одинаковые записи, не объединяя. Группы маркирует цветом. Полезно, если не доверяешь автоматике
На втором листе в итоговом файле сервис группирует похожие и одинаковые записи, не объединяя. Группы маркирует цветом. Полезно, если не доверяешь автоматике

Деньги берем, только показав результат

Сервис просит по копейке за каждую запись в исходных списках. Меньше 100 записей — вообще бесплатно.

Если кто-то сравнивает два списка по 5000 записей, «Дадата» попросит 100 рублей. (0.01 рубля × 10 000 записей).

Не может быть такого, что человек загрузил файлы, заплатил 100 рублей, а сервис нашел ноль пересечений. Как уже говорил, «Дадата» сначала анализирует файлы и показывает статистику. А потом пользователь уже решает, платить или нет.

Правда, широкую аудиторию все это пока не очень впечатляет.

Продвигается пока тяжело

Важный актив «Дадаты» — аудитория. Мы на рынке с 2014-го, делаем много всякого для качества данных, люди в основном хвалят.

Поэтому новые сервисы продвигаем среди своих пользователей. На DaData.ru 20 000 активных аккаунтов, в рассылке — 10 000 емейлов. С ними и работаем прежде всего.

А для незнакомых с нами людей пишем статьи, такие как эта. В последнее время цель — скорее не продвинуть, а понять, имеет ли смысл заниматься пересечением списков дальше. Может быть, пора закрывать сервис.

Пока, врать не буду, идет тяжело. Судя по отзывам, главное возражение — «Есть же Excel». При том, что наша аудитория отлично знает разницу между «Дадатой» и «Экселем». Есть гипотеза, что люди привыкли, обросли готовыми формулами для сравнения списков и не хотят бросать.

Как бы там ни было, пока факт таков: «Сравнение списков» — бедный родственник среди сервисов «Дадаты». За прошлый год его применили всего 80 пользователей, обработав 2 500 000 записей.

Поэтому помогите нам закрыть сервис или сохранить ему жизнь: дайте знать в комментариях, что можно улучшить в «Пересечении списков». Есть ли вообще смысл продолжать?

2929
11 комментариев

Отдельным сервисом может и не взлететь в виду ограничений на безопасность + конфиденциальность данных, а вот если подписка на add-on для excel - почему бы и нет?

6
Ответить

О, любопытная идея, спасибо!

Ответить

Пишу, чтобы просто сказать спасибо за сервис. Мы просто охренели от того, насколько у вас все круто, мощно, удобно и быстро работает. Это просто какой-то другой уровень. Как будто даже нечего желать. Только было обрадовались, что нашли хоть какой-то изъян – отсутствие других стран в автокомплите адресов. Потом проверили еще раз, и оказалось, что это тоже есть. Космос.

6
Ответить

Роман, спасибо большое!

Ответить

Спасибо, Роман ツ Очень рады, что «Дадата» приносит пользу.

Ответить

Комментарий недоступен

3
Ответить

Да что такое-то, а :)) Мы же не для того статью делали :))

Если серьезно, обсуждаем комментарии и радуемся. Спасибо, Сергей!

Ответить