Как сделать свои Data Big в сегменте среднего бизнеса

Рассказываем, как работают с данными на крупнейших облачных платформах, пошагово разбираем, как собрать свои Big Data из разных источников, и предлагаем бесплатное тестирование сервисов для операций с данными.

Как сделать свои Data Big в сегменте среднего бизнеса

Рынок уже выучил аксиому: в любом бизнес-решении важно руководствоваться точными и актуальными данными. Но качественная работа с большими данными зачастую возможна либо путем дорогостоящей разработки инхаус-решений, либо внедрением готового надежного инструмента. Сегодня мы поделимся с теми, кто внедряет data-driven подход, трендами, которые наблюдаем на рынке. А еще продемонстрируем, какими должны быть инструменты для работы с Big Data, и покажем, что можно сделать с данными на нашей платформе Cloud.ru Evolution прямо сейчас.

Особенности национальных Big Data

В современном мире данные стали новым золотом, их объемы продолжают расти с невероятной скоростью. На сегодняшнем рынке мы можем наблюдать следующие тренды:

Тренд №1. По данным аналитиков именно сейчас Россия переживает точку максимального роста индустрии работы с большими данными, и этот рост будет только продолжаться. Компании, которые научились эффективно собирать и анализировать данные, получают конкурентное преимущество на рынке.

Тренд №2. Компании, которые привыкли работать с легаси-решениями, сталкиваются с их ускорившимся устареванием на фоне стремительного развития технологий. Приходится искать новые варианты, в том числе с точки зрения архитектуры.

Тренд №3. Если раньше Big Data являлись прерогативой enterprise-сегмента, то сейчас работа с большими данными распространяется и на сегменты среднего и малого бизнеса.

Понятно, что нужно работать с «цифровым золотом» быстрее и эффективнее, чем конкуренты. Но если бы все было так просто!

Реальность такова, что найти рабочие, знакомые и безопасные инструменты для работы с большими данными сейчас не так-то просто. А еще нужна дорогостоящая инфраструктура. Плюс нужны специалисты для работы с данными, например, дата-сайентисты, дата-инженеры и дата-аналитики. На фоне кадрового голода профессионалы в этой области обойдутся недешево. Обучить рядовых сотрудников работе с инструментами — тоже время и деньги. При этом не факт, что вложения окупят затраты. В этом контексте становится понятно, что облачные платформы и PaaS-сервисы — наименее затратный путь для тех, кто хочет продегустировать работу с Big Data и набить руку, особенно в сегменте среднего и малого бизнеса.

Какой должна быть платформа для работы с данными

Чтобы осознанно выбрать, что же лучше: создавать свои инструменты или брать готовые, давайте определим, какие «детали» вообще нужны для того, чтобы комбайн промышленной обработки данных в принципе завелся. Для этого посмотрим, как выстраивают свои платформы данных самые крупные поставщики облачных услуг (гиперскейлеры), которые уже хорошо чувствуют себя на мировом рынке, но в большинстве своем недоступны в РФ.

Если обобщить то, как устроена платформа данных любого «сферического гиперскейлера в вакууме», получится следующее:

  1. Сервисы для хранения данных (Storage).
  2. Сервисы для обработки (Compute).
  3. Инструменты для визуализации данных (BI).
  4. Инструменты для оркестрации (Orchestration).
  5. Что-то для управления данными (Data Governance).
  6. Что-то для машинного обучения на больших данных (ML).
Минимальный уровень потребностей, которые должна закрывать платформа данных 
Минимальный уровень потребностей, которые должна закрывать платформа данных 

Таким образом любой жизнеспособный инструмент для работы с большими данными должен закрывать шесть базовых задач, а в идеале еще и предоставлять другие сервисы. Именно исходя из этих задач и требований мы начали выстраивать собственную платформу данных.

Современный подход требует от нас, чтобы платформа поддерживала микросервисную архитектуру, ведь многие приложения развертываются в контейнерной среде и должны уметь масштабироваться в зависимости от нагрузки. Эти принципы и легли в основу нашей Data Platform, которая сегодня развивается в составе платформы Cloud.ru Evolution.

Мы старались привести ее к условному идеалу, реализовывая функции от базовых к более сложным. Именно потому что Data Platform базируется на контейнерных технологиях, у нее есть ряд плюсов. В первую очередь мы говорим о скейлинге — это scaling, upscaling либо «скейлинг в 0» (если продукт это подразумевает), что на самом деле очень важно и является ключевым для высоконагруженных сервисов в облаке. Кроме того, мы сделали акцент на привычных и распространенных инструментах, необходимых для реализации каждой из задач, и получили оптимальную среду, необходимую для работы с данными в полностью cloud native среде.

Задачи и инструменты в направлении Data Platform Cloud.ru Evolution
Задачи и инструменты в направлении Data Platform Cloud.ru Evolution

Сегодня пользователи Cloud.ru могут самостоятельно протестировать такие compute-сервисы, как Evolution Managed Trino и Evolution Managed Metastore. Evolution Spark пока находится на стадии закрытого тестирования Private Preview, но доступ к нему можно запросить через техподдержку.

Элементарные операции с большими данными на Data Platform

Итак, что должна уметь платформа, чтобы работа с данными на ней была удобной? Прежде всего, это простой импорт и интеграция с другими облаками и источниками данных. В качестве примера давайте посмотрим, как с помощью Data Platform можно импортировать данные из разных источников и объединить их в единый датасет, используя механизм Trino и фреймворк Spark.

Trino — это массивно-параллельный аналитический SQL-движок, который позволяет обрабатывать большие объемы данных из разных источников. DBeaver — клиентское приложение SQL и инструмент администрирования баз данных. Metastore — продукт для хранения таблиц, в которых хранится описательная часть данных. Spark — фреймворк для реализации распределенной обработки больших данных.

Представьте себе, что в вашей компании данные о продажах и клиентах хранятся в разных источниках:

  • PostgreSQL — марки машин.
  • PostgreSQL — бренды машин, имеющиеся в продаже.
  • CSV-файл — страны-производители автомобилей.
  • CSV-файл — информация о заказах (дата, номер заказа, ФИО покупателей и т.д.).
  • CSV-файл — данные о продажах (номер заказа, сумма сделки).

Это могут быть сотни или даже тысячи строк, поэтому ручное сопоставление займет очень много времени, если вообще окажется возможным. Далее опишем, как объединить эти данные. Вы можете сами протестировать этот путь, либо показать этот раздел своему IT-специалисту вместе с документацией сервисов Evolution Managed Trino и Evolution Managed Metastore: обещаем, там так просто, что осилит даже джун! А если не хочется вдаваться в подробности, переходите сразу к последнему абзацу раздела.

Пример, как можно объединить данные из разных источников с помощью сервисов на платформе Cloud.ru Evolution 
Пример, как можно объединить данные из разных источников с помощью сервисов на платформе Cloud.ru Evolution 

Теперь пошагово разберем, как можно объединить данные из разных источников, используя сервисы Evolution Managed Trino, Evolution Managed Metastore и Evolution Spark:

  1. С помощью сервиса Evolution Managed Trino мы можем выполнить объединение данных из двух баз (в нашем примере PostgreSQL) простым SQL-запросом. Для этого потребуется развернуть инстанс Trino и создать подключения к этим базам данных.
  2. В S3-хранилище лежит CSV-файл с информацией о брендах авто и стране-производителе, и задача в том, чтобы к этим данным также можно было обращаться, как к обычной таблице. Используем сервис Evolution Managed Metastore, который будет хранить описательную часть данных, а затем добавляем это новое подключение к Metastore в инстанс Trino. На этом этапе мы сможем дополнительно обогатить данные и объединить информацию из двух баз данных с данными из S3-хранилища.
  3. Далее попробуем трансформировать данные с помощью Evolution Spark: в Spark-инстансе создадим новую задачу, которая будет запускать подготовленный Python-скрипт и сохранять результат в виде объединенного CSV-файла и таблицы Metastore, к которой мы будем обращаться.
  4. Данные, полученные на шагах 1–3 мы объединим с таблицей, полученной с помощью Spark. Для этого в DBeaver группируем данные по автомобилям и продажам и с помощью несложного SQL-скрипта, чтобы получить подробные данные о продажах автомобилей каждой марки.

Можно пойти еще дальше и добавить статистику по самым популярным цветам автомобилей, которая у нас хранится, например, на ArenadataDB. Для этого также потребуется создать еще одно подключение в Trino и объединить данные еще и из этого источника.

Общий массив данных и инструменты, с помощью которых они получены
Общий массив данных и инструменты, с помощью которых они получены

Вот таким образом получаются большие данные, которые можно использовать как угодно: от построения дашбордов, чтобы держать руку на пульсе бизнеса, до прогнозирования продаж, выстраивания маркетинговой стратегии, планирования акций и скидок для VIP-клиентов.

С большими данными приходит большая ответственность, особенно если рыночная ситуация стремительно меняется. Чтобы оставаться на плаву в океане возможностей, нужно либо корректно запланировать все затраты и создать свои инструменты анализа данных, либо выбрать готовые сервисы из доступных, либо…протестировать Data Platform! Потому что тогда вы сможете:

  1. Получить стартовый набор инструментов для работы с BIg Data и простые инструкции по их использованию.
  2. Рассказать о сценариях работы, которые нужны именно вашему бизнесу.
  3. Первыми получить доступ к продукту, заточенному под ваши задачи, не возлагая на себя весь груз инхаус-разработки.

Для начала работы нужно всего лишь зайти в личный кабинет на Cloud.ru и выбрать нужные сервисы на платформе Cloud.ru Evolution.

44
22
реклама
разместить
Начать дискуссию