Знакомьтесь, Data Detective — каталог данных от «Тинькофф»

Он устроен так, чтобы в нем было легко найти что угодно

На конференции HighLoad++ Foundation 2022 мы делали доклад о Data Detective, собственном каталоге данных «Тинькофф», и анонсировали, что хотим вывести наше творение в мир.

В этой статье расскажем, чем Data Detective интересен бизнесу и как он устроен. Статья будет полезна аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Почему мы заинтересовались каталогом данных

За 15 лет существования платформы данных «Тинькофф» мы собрали гигантские объемы данных: сотни тысяч таблиц и отчетов, которые хранятся на 23 кластерах различных СУБД.Попробуйте представить себя на месте бизнес-аналитика — неспециалиста по платформам данных, который должен быстро найти одну табличку. По итогам интервью наших пользователей оказалось, что они тратили часы и даже дни на поиск информации. А теперь умножьте это на 5000: столько аналитиков в «Тинькофф» хотя бы раз в месяц используют платформу данных и сталкиваются с проблемой поиска.

Но одних интервью было недостаточно для принятия решения. Мы подтвердили проблему, проведя опросы пользователей в 2019 и 2020 годах. В 2020 году 40% пользователей оценили поиск данных как серьезную проблему и поставили ему 6,5 балла из 10. И еще они оставляли такие отзывы:

— «Поиск метаданных в “Тинькофф“ — искусство, ему нельзя научить».

— «Хранилище в текущем виде непознаваемо для пользователей».

Так мы осознали, что пришло время решать проблему. Оставалось понять, как именно.

Как обычно решают проблему поиска данных

Главное правило решения любой проблемы: вы точно не первые, кто с ней столкнулся. Мы изучили мировую практику и обнаружили, что проблема типична для data-driven компаний.Ее причина — рост объема данных. В какой-то момент аналитики уже не могут держать в голове все таблицы и начинают тратить много времени на поиск информации. Разумеется, компании не хотят тратить время высокооплачиваемых специалистов на поиск данных, поэтому LinkedIn, Uber, Google и другие гиганты придумали решение проблемы — каталог данных.

Каталог данных — система, которая содержит в себе весь контекст по данным компании и предоставляет интерфейс для самостоятельного поиска по нему. В качестве аналога представьте маркетплейс: вы ищете по каталогу из сотен тысяч товаров, но благодаря категоризации, поиску и продуманному контексту почти всегда быстро находите нужное. Каталог данных выполняет ту же функцию, только вместо товара в нем данные.

Как мы разработали свой каталог

Проанализировав рынок каталогов данных в 2020 году, мы не нашли инструмент, который бы решил проблему поиска в сложной и самописной экосистеме. И оказались перед выбором: ничего не решать или начать разработку своего каталога данных. Мы выбрали второе и создали решение Data Detective, сокращенно Detective или DD.

Задача Data Detective в том, чтобы поиск данных был не сложнее поиска товара на Amazon. Его основная целевая аудитория — обычные пользователи данных, которые не обязаны знать слова DDS, Data Lake, Hadoop и технические термины. Они хотят находить информацию быстро и без лишних телодвижений. А мы помогаем им, дав инструмент, куда можно загрузить контекст для любых данных и отобразить их в удобном формате.

Сразу разграничим два понятия, которые будут встречаться в статье: данные и метаданные. Data Detective можно сравнить с библиотекой: данные — это книги, а метаданные — библиотечный каталог.

Чтобы достичь наших целей, мы построили Data Detective на основе трех принципов:

1. Удобство. Мы хотели максимально снизить порог вхождения в инструмент. Для этого детально проработали пользовательский опыт аналитиков в «Тинькофф», провели десятки интервью и на их основе спроектировали понятный и простой интерфейс.

2. Универсальность. Мы хотели создать адаптируемый инструмент, который не смогли найти на рынке. Если каталог данных не может отобразить вашу экосистему, он бесполезен. Поэтому модель метаданных Data Detective частично динамическая: это позволяет загрузить в каталог метаданные любой структуры и управлять их отображением прямо из базы данных DD.

3. Интеграция. Мы стремились собрать все метаданные в едином хранилище, понимая, что их источниками будут десятки систем. При этом даже в рамках одной компании разные команды часто используют разные технологические стеки. Чтобы упростить интеграцию команд в единое хранилище, в DD есть pull- и push-механизмы. С помощью них каждая команда выбирает более подходящую технологию.

В чем ценность Data Detective для компании

Data Detective экономит время аналитиков на поиск данных — они могут потратить его на помощь в принятии важных для бизнеса решений. Опыт других компаний показывает, что аналитик в среднем тратит около 50% рабочего времени на поиск информации. Покажем на примерах использования каталога в «Тинькофф», как он помогает решать проблемы поиска и управления данными.

Первая целевая аудитория каталога — обычные пользователи, которым нужно быстро найти информацию, например бизнес-аналитики. В основном они используют каталог в двух целях.

Чтобы получить подробный контекст по объекту. Часто полезная информация раскидана по множеству мест в системе, и не ко всем местам аналитики имеют доступ. Например, специалисту нужно найти отчет. Информация о его владельце хранится в Confluence, информация о последнем обновлении лежит в Actuality, а информация об алгоритме сборки — в Zeppelin. Чтобы составить полную картину, нужно открыть каждый сервис. А Data Detective собирает данные об отчете из всех трех мест.

Чтобы быстро принимать решение об объекте метаданных. Для разных пользователей важна разная информация об одном и том же объекте метаданных. Кому-то важнее его владелец, поэтому он хочет видеть эту информацию в начале карточки, а другому важнее прототип сборки. В DD вид карточки собирается из блоков, как конструктор. Пользователь может убирать ненужные ему блоки и менять вид карточки, как ему удобно.

Вторая целевая аудитория каталога — опытные специалисты: системные аналитики, аналитики качества данных и другие. Data Detective предоставляет им подробный контекст по объектам данных и общую картину экосистемы данных, позволяющую планировать и оценивать успех больших проектов. Вот как они используют Data Detective:

  1. Доработка модели данных. Из-за быстрых изменений в бизнесе нужно постоянно расширять и дорабатывать нашу модель данных. В процессе она стала настолько сложной, что сейчас в ее нюансах могут ориентироваться только опытные системные аналитики.Но и они не могут удержать в голове все свойства и зависимости каждой таблицы. Поэтому аналитики используют Data Detective, содержащий в себе контекст по нужному объекту данных и, самое важное, информацию по зависимым от него процессам, которые могут сломаться в процессе доработки модели.

  2. Управление местом на кластерах. Объем накопленных нами данных непрерывно растет, из-за чего не хватает свободного места на дисках СУБД. У нас есть отдельная команда, управляющая местом на дисках. Оказалось, что без карты экосистемы данных, которую предоставляет Data Detective, их работа практически невозможна. Они просто не могли оценить ни масштаб проблемы, ни эффект от их усилий. Более того, Data Detective дал основу для автоматизации процессов, например поиска и удаления неиспользуемых таблиц.

  3. Управление безопасностью данных. У нас много конфиденциальных данных, и мы не хотим, чтобы они оказались у злоумышленников. Есть отдельный департамент в ИБ, занимающийся защитой данных. Благодаря полной карте экосистемы данных в Data Detective коллеги научились автоматически находить конфиденциальную информацию и быстро выстраивать ее защиту.
Стартовая страница Data Detective: в левой панели находятся инструменты работы с каталогом данных, справа — рабочая зона, где отображаются карточки объектов данных.
Это карточка таблицы, которую мы нашли через поиск слева. Она делится на две зоны: центральная содержит в себе всю информацию по объекту данных, а в правой панели отображаются теги и информация по связям объекта с другими карточками

Что думают о Data Detective пользователи

Сначала коллеги отнеслись к идее скептически: мол, попробуйте, но вряд ли получится. Дело в том, что в компании уже были попытки изменить ситуацию с поиском данных. Однако тогда использовали все тот же Confluence, поэтому попытки не увенчались успехом.

Сейчас Data Detective — признанный инструмент для поиска данных в «Тинькофф». У нас есть шуточная метрика успеха: «Через сколько минут к нам прибегут пользователи при сбое?» Ответ: «Самое позднее — в течение пяти минут». Метрика шуточная, и нам совсем не хочется часто ее применять, но она говорит о главном: Data Detective важен для наших пользователей.

Еженедельно к нам заходят более 750 человек, и этот показатель постоянно растет. С начала 2022 года он вырос на 44%. А еще 75% пользователей полностью перешли на Data Detective из Confluence. Мигрировать на новый инструмент никого не заставляли — это личный выбор каждого. Большинство пользователей Data Detective (62%) приходят из бизнес-подразделений и только 38% из ИТ. Это доказывает, что инструмент прижился и среди неопытных пользователей, и среди прожженных айтишников.

Вот еще несколько отзывов о Data Detective:

— «Боже, храни DD!»

— «Крутой продукт, гораздо удобнее Confluence».

— «Первый инструмент, где можно сразу что-то найти».

— «Спасибо за вашу работу!»

Чем Data Detective помогает бизнесу

Мы создавали Data Detective для решения наших проблем. Но быстро поняли, что можем помочь не только себе. Некоторые компании хотят ускорить работу своих сотрудников с данными, другие уже внедрили у себя каталоги и сейчас оказались в ситуации неопределенности из-за ухода западных вендоров. Мы надеемся, что можем принести пользу и тем, и другим.

Data Detective сочетает особенности, которые мы не нашли на рынке в одном инструменте. Первая — это удобный пользовательский интерфейс, чтобы снизить порог вхождения.

Вторая особенность — легкое развертывание. Data Detective можно развернуть в любых условиях, интегрировать с разными инструментами: процесс прост и максимально автоматизирован.

И последнее — полностью российское ПО. Мы не думали об этом на старте разработки, но обстоятельства сделали это важным. Data Detective полностью разработан в РФ, и мы планируем скоро включить его в реестр отечественного ПО. Это делает Data Detective альтернативой продуктам компаний, ушедших с рынка РФ.Кроме того, в отличие от Open Source решений, мы готовы оказывать поддержку пользователям нашего продукта совместно с интеграторами. Это позволит еще глубже кастомизировать инструмент под запросы и рассчитывать на поддержку от нас в сложных случаях.

Что Data Detective сейчас не делает

Некоторые потребности Data Detective пока не закрывает, но какие-то функции могут появиться в дальнейшем.

DD не автоматизирует процесс запроса на создание данных. Например, вы не нашли нужные данные и хотите прямо из каталога запросить у сотрудников хранилища данных формирование таблицы. Мы сосредоточены на кейсе поиска данных и не планируем развивать инструмент в эту сторону, пока не закончим с развитием поиска.

В DD нет готовых коннекторов для загрузки метаданных. Многие каталоги данных, например DataHub, из коробки предоставляют коннекторы для загрузки метаданных из самых популярных инструментов. В Data Detective такого пока нет, но мы думаем над такой функциональностью, и она может появиться в обозримом будущем.

Что дальше

Дальше планируем продолжать развиваться и делать крутой инструмент для «Тинькофф» и других компаний. Мы сами активно пользуемся Data Detective и заинтересованы в его развитии.

В 2022 году хотим закончить новый поисковый движок — самую важную функцию Data Detective. Сейчас он построен на базе Postgres и триграмных индексов, что вполне закрывает базовые потребности. Но, например, в нем нет поиска по синонимам и морфологии поиска. Чтобы их получить, мы внедрим в Data Detective полноценный поисковый движок: возможно, привычный Elastic или внутреннюю разработку.

Также планируем улучшить Data Lineage. Текущая реализация Data Lineage удобна, но от нее можно добиться более плавной работы графа. Еще думаем об альтернативном варианте отображения Data Lineage в текстовом виде: в некоторых сценариях это упрощает работу системным аналитикам. Его тоже планируем реализовать до конца года.

Сейчас мы движемся к запуску пилотного проекта со сторонней компанией. Если вас заинтересовал Data Detective, вы хотите узнать о нем больше или задать вопросы, которые в статье не осветили, переходите в телеграм-канал и пишите нам. Мы обязательно ответим!

Реклама, АО «Тинькофф Банк»

0
38 комментариев
Написать комментарий...
un1c

Решите проблему звонков добросовестным клиентам по задолженностям, data detective х*евы

Ответить
Развернуть ветку
Vyacheslav.O
> Знакомьтесь, Data Detective

Знакомьтесь, Down Detector.

Ответить
Развернуть ветку
Тинькофф
Автор

Это правда, часть клиентов сейчас может столкнуться со сложностями в работе сервисов. Но мы уже начали активно работать над тем, чтобы устранить причины и восстановить нормальную работу систем. Всё исправим в ближайшее время, пожалуйста, ожидайте.

Ответить
Развернуть ветку
Vyacheslav.O
Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

У вас приложение не работает уже несколько часов и на сайт нельзя зайти!!! Где об этом новости???

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте, напишите ФИО и дату рождения нам в личные сообщения, мы проверим ситуацию.

Ответить
Развернуть ветку
Vyacheslav.O

Да вы чего, у вас там полный нокаут. Какие ещё ФИО?

Ответить
Развернуть ветку
Андрей

А как я вам должен теперь кредит гасить с неработающим приложением?

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте.

Вы можете погасить кредит другими способами. Подробнее о способах рассказываем тут: https://www.tinkoff.ru/loans/cash-loan/how-repay/

Если платеж не поступит вовремя по нашей вине, вы можете обратиться к нам по звонку или в чате, и мы сделаем все возможное, чтобы уладить этот вопрос.

Ответить
Развернуть ветку
Котэ

фух, я думал только у меня так, мало ли заблочили...
Оказывается не только у меня.

Тоже нельзя зайти не в Инвестиции, не в приложение. И сайт выпадает в error

Ответить
Развернуть ветку
Тинькофф Инвестиции

По техническим причинам небольшая часть клиентов сейчас может столкнуться со сложностями в работе сервисов. Мы активно работаем над тем, чтобы устранить причины и восстановить нормальную работу систем. Постараемся все сделать в ближайшее время.

Ответить
Развернуть ветку
Михаил Нежник

Везде найдут повод придраться к компании в комментах 😀😀😀

Ответить
Развернуть ветку
Денис Мартынов

О господи, работа с данными это просто боль... Кто столкнулся, меня поймет) И было бы реально неплохо если бы сделали все красиво. В это по крайней мере хочется верить. И думаю при должном желании Тинькофф смогут это сделать без проблем

Ответить
Развернуть ветку
Юрий Карташов

Автоматизация процессов или частичная автоматизация это всегда хорошо. Это минус человеческий фактор и плюс свободное время. А ситуация с несколькими сервисами вообще усугубляет ситуацию, общая база безусловно будет удобнее. Короче о плюсах можно говорить долго, главное что бы оформили это все итоге нормально

Ответить
Развернуть ветку
Кирилл Добряков

Это ПО которое надо будет шлифовать по любому какое-то время. Надеяться на все и сразу глупо. Спустя определенное время можно будет всерьез уже оценивать функционал, удобство и прочее

Ответить
Развернуть ветку
Андрей Синявский

Бесполезная служба поддержка или банк стал SCAMом

14.10.2022 мне заблокировали карту за обычной перевод моему родственнику. Раньше переводы проходили без проблем. Обещали связаться в течении часа. Потом до конца дня, потомо в течение 2 дней. С тех пор переносят безконечно сроки до сегодняшнего дня. Каждый агент поддержки предоставляет разную информацию, кто-то говорит, что отдел занимающийся моим обращением работает круглосуточно. Потом выясняется, что нет, только до 21-00.
Потом прислали смс что не смогли дозвониться, хотя телефон всегда со мной и звук включен. Самое интересное, что отдел продаж дозванивается спокойно предлогает карты и кредиты. А отдел безоасности позвонить не может. В итоге я на телефоне потратила уже больше 600 рублей на звонки им, я в роуминге. Если звоню через интернет, после того как они находят мое обращение звонок чудесным образом всегда сбрасывется.
Тинькофф уже не тот, настоятельно рекомендую выбрать другой банк, так как решение вопроса или внятный ответ добиться от них не возможно, потратите деньги и время.
Моя семья долгое время являлась фанатами этого банка, а теперь блокируют транзакции постоянно.
P.S. Буду держать в курсе по мере. развития событий, берегите себя и обходите их банкоматы стороной. Лучшие времена Тинькофф банка видимо история!

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте.

Ситуация произошла из-за того что наша автоматическая система мониторинга посчитала, что перевод могут делать мошенники. В таких ситуациях мы стараемся максимально быстро связаться с клиентом и решить проблему. Но в вашем случае не смогли этого сделать.

На первой линии старались максимально помочь и отвечали на все ваши вопросы. Смс, где указали, что не смогли с вами связаться, отправили вам по ошибке. Извините нас, пожалуйста. После не могли дозвониться до вас.

Карту уже разблокировали и начислили компенсацию.

Ответить
Развернуть ветку
PowerfullMan

Да, а может вы соизволите решить и мой вопрос??))
Я трачу огромное количества времени на разговоры с банком, которые ни к чему не ведут, вы игнорируете меня везде и лишаете меня денежных средств, отсутсвие которых вынуждает меня ограничивать себя даже в базовых нуждах.

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте.

Ранее ответили вам под другим постом. Мы проводим внутренне расследование по вашему счету. До окончания проверки не можем принять распоряжение на вывод денег. Постараемся решить вопрос как можно скорее.

Ответить
Развернуть ветку
PowerfullMan

Да!!!!!
Точно!!!!!
Засуньте себе в жопу ваше укбо, на которое вы обычно ссылаетесь.
У нас есть законы РФ, которым вы должны подчиняться.
Вы оставили меня без денег на существование.
В срочном порядке примите заявление на закрытие счёта и на перевод денежных средств, и выдайте мне денежные средства.
Ваши действия незаконны

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте.

Мы не блокируем карты, но можем ограничить дистанционное обслуживание. На некоторые задачи нам может потребоваться немного больше времени, чем обычно. Хотим подробно разобраться в вашей ситуации. Отправьте, пожалуйста, в личные сообщения ваши ФИО и дату рождения. Проверим все детально и вернемся к вам с ответом.

Ответить
Развернуть ветку
Андрей Синявский

Мне заблокировали сначала карту, а потом ещё и личный кабинет и в кусты, тишина…… данные в личку отправила

Ответить
Развернуть ветку
Игрок

Когда Ребрендинг? В феврале в MAgent новость официальная была про это.

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте. Мы действительно планируем провести Ребрендинг, следите за новостями.

Ответить
Развернуть ветку
критичный скептик

зачем изобретать колесо? есть dbt, берите и пользуйтесь! нет ведь, надо освоить кучу бабла и отвлечь разрабов от клиентских задач

Ответить
Развернуть ветку
Юрий

Что-то делают делают, а число недовольных клиентов все растет и растет..

Ответить
Развернуть ветку
Михаил Иванович

HighLoad++, когда хоть как-нибудь ваш сайт заработает?

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте.

По техническим причинам небольшая часть клиентов сейчас может столкнуться со сложностями в работе сервисов. Мы активно работаем над тем, чтобы устранить причины и восстановить нормальную работу систем. Постараемся все сделать в ближайшее время. Простите, что не можем починить всё моментально.

Сейчас мы движемся к запуску пилотного проекта Data Detective со сторонней компанией. Точных сроков сейчас нет.

Ответить
Развернуть ветку
Алексей Жданов

Странно конечно что задумались об этом только сейчас. Когда любая другая, крупная организация с такими объемами данных уже давно внедряют каталоги данных. Сейчас не нулевые и подобные решения просто необходимы. Так что неизбежно, но это бы все равно пришло.

Ответить
Развернуть ветку
Виктор Д.

об этом и в самой статье пишется, что проблема для таких компаний типична. Места много не бывает)

Ответить
Развернуть ветку
Жертва стартапа

Ну видимо как появилась серьезная потребность, так и взялись. Всегда же так, пока не заболит - никто и пальцем не шевельнет

Ответить
Развернуть ветку
Dawn Coll

Главное наверное что не стали прибегать к чьей-то помощи, а сделали все самостоятельно, на своем ПО. И как показала недавняя практика, все не полетит к черту после очередных санкций и тому подобного

Ответить
Развернуть ветку
SN

Выглядит крайне забавно! А расскажите подробнее про интеграцию. Вот у меня есть хранилище на условном Exasol. Что нужно сделать, чтобы данные начли сливаться в инсталляцию Вашего продукта?

Ответить
Развернуть ветку
Тинькофф
Автор

Здравствуйте!

К запуску проекта мы еще движемся. Вы можете задать этот вопрос в нашем телеграм-канале.

Ответить
Развернуть ветку
Kirill Afanaciev

++++

Ответить
Развернуть ветку
Konstantin T.

Не путайте теплое с мягким. Для пользователей важна честность и надежность, человечная поддержка (а не чатботы). А дата-детектив свой засуньте в ж*** своим менеджерам, никому он больше не нужен. Через несколько лет вас не станет как организации, к чему все эти телодвижения? На западном рынке бизнес, который построен на лжи и обдираловке по 115му, не взлетит.

Ответить
Развернуть ветку
Artem Belov

Есть документация с инструкцией по развертыванию подробная? в гитхабе вижу утилиту для airflow... ? Или это закрытый код? Штука актуальная для меня) Хочу попробовать.

Ответить
Развернуть ветку
35 комментариев
Раскрывать всегда