Данные стали точнее, а расходы снизились в 2,25 раза: как мы сделали аналитику французской компании Mentorshow

Построить наконец-то нормальную аналитику, с интерактивными дашбордами и базами данных вместо гугл табличек — это как подобрать подходящие очки. Сразу видишь все детали и каждый листик на дереве и поражаешься, как жил без этого раньше. Но иногда чуда не происходит, и в очках видно еще хуже, чем без них, а аналитика приносит больше запар, чем пользы.

Данные стали точнее, а расходы снизились в 2,25 раза: как мы сделали аналитику французской компании Mentorshow

Я уже 5 лет руковожу дата-консалтингом Valiotti Analytics. Мы строим системы аналитики компаниям из digital-сфер — edtech, fintech, ecom и так далее. Уже больше 40 кейсов и среди как раз был такой, когда заказчик начал строить аналитику своими силами, но вместо инсайтов получил кривые дашборды и путаницу в данных. Все было так плохо, что цифры на дашбордах приходилось пересчитывать в Excel за отдельные деньги.

Спойлерну: в конце кейса нас ждет хеппи-энд, мы с командой разрулим все проблемы, а я еще и расскажу, как избежать подобных проблем.

Одна база данных хорошо, а две лучше (нет)

К нам обратился французский EdTech-проект Mentorshow — аналог американского MasterClass, площадка с видеоуроками и курсами от экспертов в разных областях. Это была уже вполне зрелая компания с выстроенной системой аналитики.

Помните на Youtube одно время постоянно крутили рекламу мастер-классов от разных известных людей? Вот это то же самое, только на французском. 
Помните на Youtube одно время постоянно крутили рекламу мастер-классов от разных известных людей? Вот это то же самое, только на французском. 

Запрос был такой:

  • переехать в новую базу данных,
  • переверстать несколько ключевых дашбордов и убедиться, что на них выводятся корректные данные. Сомнения в этом были и довольно серьезные.

Заказчик настолько не доверял своей аналитике, что ему приходилось каждый месяц пересчитывать показатели в Excel. А это дополнительные издержки в сотни евро в месяц.

Начали разбираться, как это получилось. Что мы увидели, когда погрузились в проект?

  • Источники данных: соцсети, сайт, рекламные кабинеты, активность студентов и финансовые операции. Все как у всех.
  • Сбор данных велся автоматически с помощью нескольких отдельных скриптов на Python, написанных их специалистом.
  • Для хранения данных использовали сразу две базы: Postgres и Redshift. Вот здесь уже начинаются настоящие проблемы…
  • Визуализация: 7 дашбордов в Tableau с самыми важными показателями — прибыль, расходы на рекламу, продажи, активность пользователей и так далее.

Между прочим, Redshift и Tableau — платные инструменты. То есть, Mentorshow платили за их использование, чтобы потом… просто не пользоваться аналитикой и пересчитывать данные отдельно — и тоже платно.

У заказчика было много разных источников, данные из которых хаотично сыпались сразу в две базы. Они там дублировались, перезаписывались и каким-то образом выводились на дашборды по непонятной логике. Было сложно отследить, правильно ли данные собираются и обрабатываются, актуальные ли они, нет ли ошибок в расчетах.

Дашборд — это как бы руководитель, которому подчиненные отправляют отчеты сразу в мессенджер и на почту. Иногда они присылают одно и то же, иногда данные расходятся, а иногда весь документ написан шрифтом Wingding. И из вот этого всего надо получать какие-то инсайты. Все понятно, большое спасибо.

Все понятно, большое спасибо. 
Все понятно, большое спасибо. 

Создатель этой инфраструктуры уже ушел из компании, когда мы подключились к проекту, так что было даже не у кого спросить, почему все так. Документации он тоже не оставил.

Как это получилось?

Я подозреваю, что аналитика просто не успела за ростом компании. На старте данных было немного, и хватало пары скриптов, чтобы автоматически собирать их в базу и выводить на графики. Но их становилось больше — новые курсы, преподаватели и каналы продвижения, растущий отдел продаж, сайт, приложение, платежи от студентов. Нужно было писать новые скрипты и регулярно обновлять старые.

Больше всего вопросов к ситуации с базами данных — возможно, хотели переехать на новую базу или перенести в нее только часть данных, но что-то не получилось. В общем, они пытались развивать свою аналитику, но им не хватило экспертизы в этой области, чтобы сделать это правильно.

В итоге это все превратилось в огромный узел, в котором было практически невозможно разобраться — легче все сделать заново.

Как мы сократили расходы на аналитику больше, чем вдвое

Mentorshow тратили деньги на оплату Redshift и Tableau, но при этом не получали от них никакой пользы. О развитии и масштабировании системы аналитики и речи не шло.

Какие решения мы предложили?

  • Навести в данных порядок и вернуть к ним доверие — перенести их в одну базу, где не будет ошибок и дубликатов. Заказчик хотел переехать в ClickHouse, и это была одна из причин, почему он обратился именно к нам — мы с этой базой очень часто работаем.

Так что если вам нужно построить аналитику и внедрить в нее ClickHouse — вы знаете, к кому обращаться.

  • Сделать систему более гибкой, чтобы она адаптировалась под бизнес. Для этого мы внедрили оркестратор Apache Airflow — это софт, который централизованно собирает данные, передает в базу и сразу присылает оповещение, если что-то идет не так. Им управлять удобнее, чем кучей отдельных скриптов.

Оркестратор — это как бы секретарь, который собирает в кучу поток отчетов, сортирует и потом передает боссу в читабельном виде.

Для многих «оркестратор данных» — это уже какая-то технарская духота. Представить, что он именно делает и чем принципиально отличается от обычных скриптов, может быть сложно.

Углубляться в эти вопросы в статье — еще больше душнить. Тут показывать надо, и это мы с командой и делаем на наших бесплатных экскурсиях по системе аналитики. Там в формате онлайн-встречи мы расскажем, как должна работать аналитика и зачем нужен каждый ее элемент → запись по ссылке.

Не повторяйте ошибки мужчины слева. 
Не повторяйте ошибки мужчины слева. 

Но вернемся к Mentorshow. Что у нас получилось в итоге?

  • Первый этап работы с переездом в новую базу и настройкой оркестратора заняли около 4 месяцев напряженной работы, и этого того стоило.
  • Mentorshow в 2,25 раза сократили расходы на систему аналитики. Да, мы посчитали.
  • Расходы на аналитику (те, что остались) перестали быть пустой тратой денег, потому что теперь заказчик мог доверять данным и спокойно пользоваться дашбордами. Аналитика начала выполнять свою функцию.
  • Mentorshow вместе с нашей помощью смогли развивать и улучшать свою инфраструктуру по работе с данными. Мы сверстали 7 новых дашбордов в Superset — это open source-инструмент, так что апдейт обошелся дешевле, чем если бы мы делали их в платном Tableau.

Это все стало возможно, потому что грамотно построенная система аналитики превращает данные в эффективный рабочий инструмент. Она не отнимает время и деньги, а наоборот помогает развивать бизнес и сама растет вместе с ним.

Вот такие получились дашборды в итоге — удобные, наглядные и с корректными данными. 
Вот такие получились дашборды в итоге — удобные, наглядные и с корректными данными. 

Почему строили аналитику, а получился монстр Франкенштейна?

Кажется, что ситуация странная — как это получилось, что взяли нормальные инструменты, заморочились с автоматизацией, а в итоге пересчитывали цифры в Excel?

Mentorshow выросла из стартапа до стабильного среднего бизнеса, а вот аналитика вырасти вместе с компанией не успела. Они осталась на уровне, которого хватало на старте, но было недостаточно для текущих задач. С такой проблемой сталкиваются многие растущие компании, хотя и не все доходят до того, чтобы перепроверять данные из Tableau в табличке.

И не работает, и выбросить жалко. 
И не работает, и выбросить жалко. 

Часто люди не успевают заметить момент, когда старое решение перестает работать, сколько бы костылей к нему не лепили. Им не хватает экспертизы и возможности вынырнуть из операционки, чтобы объективно оценить ситуацию.

Так что делать, чтобы избежать таких проблем или хотя бы минимизировать риски? Ответ зависит от этапа развития компании.

Молодому стартапу — сразу закладывать фундамент для будущей аналитики. Прописывать стандарты и политики, как работать с данными: где хранить, как считать метрики, кому давать доступы. Если есть технический специалист — заставлять его писать инструкции, сохранять доступы, вести документацию.

Это кажется лишним сейчас, если в компании 10 человек и одна табличка, но пригодится, когда человек будет 50, а табличек за сотню.

Зрелому стартапу или среднему бизнесу — не изобретать велосипед. На этом этапе уже не получится что-то сделать своими силами — нужна экспертиза, чтобы построить эффективную систему аналитики и не накосячить в ней. Есть два способа найти эту экспертизу: начать формировать дата-команду в штате или обратиться к специалистам на аутсорсе.

Как фаундер дата-консалтинга, я, конечно же, за второй вариант. Формировать целый отдел с аналитиками и дата-инженерами — это долго и дорого, а вам нужно будет все внимательно контролировать. Дата-консалтинг — это компания, у которой уже есть опыт и ресурсы для создания системы аналитики. Это предсказуемый результат в оговоренный срок и за заранее определенную стоимость.

Хотите увидеть, как выглядит этот результат?

Записывайтесь на экскурсию — на личной встрече покажем вам систему аналитики реального проекта и ответим на все вопросы.

В конце, как и полагается любому уважающему себя автору на vc.ru, оставлю ссылки на социальные сети и другие медиа-ресурсы.

  • Просто и понятно про анализ данных, технологии, нейросети и, конечно, SQL в Telegram-канале LEFT JOIN.
  • Пишу про данные, бизнес, продуктивность, Кипр и любовь к теннису в личном канале Коля Валиотти.
  • Карьерные заметки и вакансии для аналитиков, инженеров данных, дата саентистов, проджектов и не только в Карьера в Data | LEFT JOIN.
2222
50 комментариев

настроить аналитику в стартапе — это как собрать конструктор вслепую. все равно потом переделывать, а половину наработок придется выбросить в итоге) и кучу денег на это потратишь

Ответить

Ну, не совсем так. Наверное, это актуально для самых особенных снежинок, которые строят нечто невиданное, чего еще никогда не было. Но в большинстве случаев уже есть некие best practices, как строить аналитику в стартапе и какие инструменты подобрать. Половину выбрасывать не придется, ну а куча денег — понятие относительное)

3
Ответить

Вот да, важно не проглядеть, когда инструмент начинает лажать и решение уже не работает

Ответить

Абсолютно верно, но иногда этот момент бывает очень сложно отследить, пока не накопится критическая масса проблем и ошибок в данных)

2
Ответить

В статье слишком много про стартапы. А что делать средним компаниям, у которых уже есть данные, но аналитики еще нет?

1
Ответить

Такое не так уж часто бывает — обычно у среднего бизнеса какая-то работа с данными ведется.
В целом, подход будет похожий, но акцент будет на оптимизации и интеграции уже существующих данных. Часто данные есть, но они разбросаны по разным системам, и наша задача — объединить их и построить на этой основе аналитику, которая позволит быстрее принимать решения. Мы чаще всего работаем именно с развивающимися middle+ компаниями, которые хотят вывести свою аналитику на новый уровень.

1
Ответить

А почему выбрали Airflow а не что-то типа Prefect или Mage в этом кейсе небольшой компании? Не будет ли потом Airflow поддерживать будет сложнее? Спрашиваю, потому что сама работаю в небольшой компании, где делаю все это сама, но оркестратора пока нет. Документация и 1 база данных в BigQuery есть :)
и еще вопрос: кто будет заниматься поддержкой созданной вами системы?

1
Ответить