Знакомьтесь, Data Detective — каталог данных от «Тинькофф»

Он устроен так, чтобы в нем было легко найти что угодно

Знакомьтесь, Data Detective — каталог данных от «Тинькофф»

На конференции HighLoad++ Foundation 2022 мы делали доклад о Data Detective, собственном каталоге данных «Тинькофф», и анонсировали, что хотим вывести наше творение в мир.

В этой статье расскажем, чем Data Detective интересен бизнесу и как он устроен. Статья будет полезна аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Почему мы заинтересовались каталогом данных

За 15 лет существования платформы данных «Тинькофф» мы собрали гигантские объемы данных: сотни тысяч таблиц и отчетов, которые хранятся на 23 кластерах различных СУБД.Попробуйте представить себя на месте бизнес-аналитика — неспециалиста по платформам данных, который должен быстро найти одну табличку. По итогам интервью наших пользователей оказалось, что они тратили часы и даже дни на поиск информации. А теперь умножьте это на 5000: столько аналитиков в «Тинькофф» хотя бы раз в месяц используют платформу данных и сталкиваются с проблемой поиска.

Но одних интервью было недостаточно для принятия решения. Мы подтвердили проблему, проведя опросы пользователей в 2019 и 2020 годах. В 2020 году 40% пользователей оценили поиск данных как серьезную проблему и поставили ему 6,5 балла из 10. И еще они оставляли такие отзывы:

— «Поиск метаданных в “Тинькофф“ — искусство, ему нельзя научить».

— «Хранилище в текущем виде непознаваемо для пользователей».

Так мы осознали, что пришло время решать проблему. Оставалось понять, как именно.

Как обычно решают проблему поиска данных

Главное правило решения любой проблемы: вы точно не первые, кто с ней столкнулся. Мы изучили мировую практику и обнаружили, что проблема типична для data-driven компаний.Ее причина — рост объема данных. В какой-то момент аналитики уже не могут держать в голове все таблицы и начинают тратить много времени на поиск информации. Разумеется, компании не хотят тратить время высокооплачиваемых специалистов на поиск данных, поэтому LinkedIn, Uber, Google и другие гиганты придумали решение проблемы — каталог данных.

Каталог данных — система, которая содержит в себе весь контекст по данным компании и предоставляет интерфейс для самостоятельного поиска по нему. В качестве аналога представьте маркетплейс: вы ищете по каталогу из сотен тысяч товаров, но благодаря категоризации, поиску и продуманному контексту почти всегда быстро находите нужное. Каталог данных выполняет ту же функцию, только вместо товара в нем данные.

Как мы разработали свой каталог

Проанализировав рынок каталогов данных в 2020 году, мы не нашли инструмент, который бы решил проблему поиска в сложной и самописной экосистеме. И оказались перед выбором: ничего не решать или начать разработку своего каталога данных. Мы выбрали второе и создали решение Data Detective, сокращенно Detective или DD.

Задача Data Detective в том, чтобы поиск данных был не сложнее поиска товара на Amazon. Его основная целевая аудитория — обычные пользователи данных, которые не обязаны знать слова DDS, Data Lake, Hadoop и технические термины. Они хотят находить информацию быстро и без лишних телодвижений. А мы помогаем им, дав инструмент, куда можно загрузить контекст для любых данных и отобразить их в удобном формате.

Сразу разграничим два понятия, которые будут встречаться в статье: данные и метаданные. Data Detective можно сравнить с библиотекой: данные — это книги, а метаданные — библиотечный каталог.

Чтобы достичь наших целей, мы построили Data Detective на основе трех принципов:

1. Удобство. Мы хотели максимально снизить порог вхождения в инструмент. Для этого детально проработали пользовательский опыт аналитиков в «Тинькофф», провели десятки интервью и на их основе спроектировали понятный и простой интерфейс.

2. Универсальность. Мы хотели создать адаптируемый инструмент, который не смогли найти на рынке. Если каталог данных не может отобразить вашу экосистему, он бесполезен. Поэтому модель метаданных Data Detective частично динамическая: это позволяет загрузить в каталог метаданные любой структуры и управлять их отображением прямо из базы данных DD.

3. Интеграция. Мы стремились собрать все метаданные в едином хранилище, понимая, что их источниками будут десятки систем. При этом даже в рамках одной компании разные команды часто используют разные технологические стеки. Чтобы упростить интеграцию команд в единое хранилище, в DD есть pull- и push-механизмы. С помощью них каждая команда выбирает более подходящую технологию.

В чем ценность Data Detective для компании

Data Detective экономит время аналитиков на поиск данных — они могут потратить его на помощь в принятии важных для бизнеса решений. Опыт других компаний показывает, что аналитик в среднем тратит около 50% рабочего времени на поиск информации. Покажем на примерах использования каталога в «Тинькофф», как он помогает решать проблемы поиска и управления данными.

Первая целевая аудитория каталога — обычные пользователи, которым нужно быстро найти информацию, например бизнес-аналитики. В основном они используют каталог в двух целях.

Чтобы получить подробный контекст по объекту. Часто полезная информация раскидана по множеству мест в системе, и не ко всем местам аналитики имеют доступ. Например, специалисту нужно найти отчет. Информация о его владельце хранится в Confluence, информация о последнем обновлении лежит в Actuality, а информация об алгоритме сборки — в Zeppelin. Чтобы составить полную картину, нужно открыть каждый сервис. А Data Detective собирает данные об отчете из всех трех мест.

Чтобы быстро принимать решение об объекте метаданных. Для разных пользователей важна разная информация об одном и том же объекте метаданных. Кому-то важнее его владелец, поэтому он хочет видеть эту информацию в начале карточки, а другому важнее прототип сборки. В DD вид карточки собирается из блоков, как конструктор. Пользователь может убирать ненужные ему блоки и менять вид карточки, как ему удобно.

Вторая целевая аудитория каталога — опытные специалисты: системные аналитики, аналитики качества данных и другие. Data Detective предоставляет им подробный контекст по объектам данных и общую картину экосистемы данных, позволяющую планировать и оценивать успех больших проектов. Вот как они используют Data Detective:

  1. Доработка модели данных. Из-за быстрых изменений в бизнесе нужно постоянно расширять и дорабатывать нашу модель данных. В процессе она стала настолько сложной, что сейчас в ее нюансах могут ориентироваться только опытные системные аналитики.Но и они не могут удержать в голове все свойства и зависимости каждой таблицы. Поэтому аналитики используют Data Detective, содержащий в себе контекст по нужному объекту данных и, самое важное, информацию по зависимым от него процессам, которые могут сломаться в процессе доработки модели.

  2. Управление местом на кластерах. Объем накопленных нами данных непрерывно растет, из-за чего не хватает свободного места на дисках СУБД. У нас есть отдельная команда, управляющая местом на дисках. Оказалось, что без карты экосистемы данных, которую предоставляет Data Detective, их работа практически невозможна. Они просто не могли оценить ни масштаб проблемы, ни эффект от их усилий. Более того, Data Detective дал основу для автоматизации процессов, например поиска и удаления неиспользуемых таблиц.

  3. Управление безопасностью данных. У нас много конфиденциальных данных, и мы не хотим, чтобы они оказались у злоумышленников. Есть отдельный департамент в ИБ, занимающийся защитой данных. Благодаря полной карте экосистемы данных в Data Detective коллеги научились автоматически находить конфиденциальную информацию и быстро выстраивать ее защиту.
Стартовая страница Data Detective: в левой панели находятся инструменты работы с каталогом данных, справа — рабочая зона, где отображаются карточки объектов данных.
Стартовая страница Data Detective: в левой панели находятся инструменты работы с каталогом данных, справа — рабочая зона, где отображаются карточки объектов данных.
Это карточка таблицы, которую мы нашли через поиск слева. Она делится на две зоны: центральная содержит в себе всю информацию по объекту данных, а в правой панели отображаются теги и информация по связям объекта с другими карточками
Это карточка таблицы, которую мы нашли через поиск слева. Она делится на две зоны: центральная содержит в себе всю информацию по объекту данных, а в правой панели отображаются теги и информация по связям объекта с другими карточками

Что думают о Data Detective пользователи

Сначала коллеги отнеслись к идее скептически: мол, попробуйте, но вряд ли получится. Дело в том, что в компании уже были попытки изменить ситуацию с поиском данных. Однако тогда использовали все тот же Confluence, поэтому попытки не увенчались успехом.

Сейчас Data Detective — признанный инструмент для поиска данных в «Тинькофф». У нас есть шуточная метрика успеха: «Через сколько минут к нам прибегут пользователи при сбое?» Ответ: «Самое позднее — в течение пяти минут». Метрика шуточная, и нам совсем не хочется часто ее применять, но она говорит о главном: Data Detective важен для наших пользователей.

Еженедельно к нам заходят более 750 человек, и этот показатель постоянно растет. С начала 2022 года он вырос на 44%. А еще 75% пользователей полностью перешли на Data Detective из Confluence. Мигрировать на новый инструмент никого не заставляли — это личный выбор каждого. Большинство пользователей Data Detective (62%) приходят из бизнес-подразделений и только 38% из ИТ. Это доказывает, что инструмент прижился и среди неопытных пользователей, и среди прожженных айтишников.

Вот еще несколько отзывов о Data Detective:

— «Боже, храни DD!»

— «Крутой продукт, гораздо удобнее Confluence».

— «Первый инструмент, где можно сразу что-то найти».

— «Спасибо за вашу работу!»

Чем Data Detective помогает бизнесу

Мы создавали Data Detective для решения наших проблем. Но быстро поняли, что можем помочь не только себе. Некоторые компании хотят ускорить работу своих сотрудников с данными, другие уже внедрили у себя каталоги и сейчас оказались в ситуации неопределенности из-за ухода западных вендоров. Мы надеемся, что можем принести пользу и тем, и другим.

Data Detective сочетает особенности, которые мы не нашли на рынке в одном инструменте. Первая — это удобный пользовательский интерфейс, чтобы снизить порог вхождения.

Вторая особенность — легкое развертывание. Data Detective можно развернуть в любых условиях, интегрировать с разными инструментами: процесс прост и максимально автоматизирован.

И последнее — полностью российское ПО. Мы не думали об этом на старте разработки, но обстоятельства сделали это важным. Data Detective полностью разработан в РФ, и мы планируем скоро включить его в реестр отечественного ПО. Это делает Data Detective альтернативой продуктам компаний, ушедших с рынка РФ.Кроме того, в отличие от Open Source решений, мы готовы оказывать поддержку пользователям нашего продукта совместно с интеграторами. Это позволит еще глубже кастомизировать инструмент под запросы и рассчитывать на поддержку от нас в сложных случаях.

Что Data Detective сейчас не делает

Некоторые потребности Data Detective пока не закрывает, но какие-то функции могут появиться в дальнейшем.

DD не автоматизирует процесс запроса на создание данных. Например, вы не нашли нужные данные и хотите прямо из каталога запросить у сотрудников хранилища данных формирование таблицы. Мы сосредоточены на кейсе поиска данных и не планируем развивать инструмент в эту сторону, пока не закончим с развитием поиска.

В DD нет готовых коннекторов для загрузки метаданных. Многие каталоги данных, например DataHub, из коробки предоставляют коннекторы для загрузки метаданных из самых популярных инструментов. В Data Detective такого пока нет, но мы думаем над такой функциональностью, и она может появиться в обозримом будущем.

Что дальше

Дальше планируем продолжать развиваться и делать крутой инструмент для «Тинькофф» и других компаний. Мы сами активно пользуемся Data Detective и заинтересованы в его развитии.

В 2022 году хотим закончить новый поисковый движок — самую важную функцию Data Detective. Сейчас он построен на базе Postgres и триграмных индексов, что вполне закрывает базовые потребности. Но, например, в нем нет поиска по синонимам и морфологии поиска. Чтобы их получить, мы внедрим в Data Detective полноценный поисковый движок: возможно, привычный Elastic или внутреннюю разработку.

Также планируем улучшить Data Lineage. Текущая реализация Data Lineage удобна, но от нее можно добиться более плавной работы графа. Еще думаем об альтернативном варианте отображения Data Lineage в текстовом виде: в некоторых сценариях это упрощает работу системным аналитикам. Его тоже планируем реализовать до конца года.

Сейчас мы движемся к запуску пилотного проекта со сторонней компанией. Если вас заинтересовал Data Detective, вы хотите узнать о нем больше или задать вопросы, которые в статье не осветили, переходите в телеграм-канал и пишите нам. Мы обязательно ответим!

Реклама, АО «Тинькофф Банк»

1818
38 комментариев

Решите проблему звонков добросовестным клиентам по задолженностям, data detective х*евы

8
Ответить

> Знакомьтесь, Data Detective

Знакомьтесь, Down Detector.

7
Ответить

Это правда, часть клиентов сейчас может столкнуться со сложностями в работе сервисов. Но мы уже начали активно работать над тем, чтобы устранить причины и восстановить нормальную работу систем. Всё исправим в ближайшее время, пожалуйста, ожидайте.

1
Ответить

У вас приложение не работает уже несколько часов и на сайт нельзя зайти!!! Где об этом новости???

5
Ответить

Здравствуйте, напишите ФИО и дату рождения нам в личные сообщения, мы проверим ситуацию.

Ответить

фух, я думал только у меня так, мало ли заблочили...
Оказывается не только у меня.

Тоже нельзя зайти не в Инвестиции, не в приложение. И сайт выпадает в error

1
Ответить

Везде найдут повод придраться к компании в комментах 😀😀😀

3
Ответить