Трибуна Елена Шибанова
668

Гарри Поттер, Big Data и управление данными

В закладки

Непростительное ожидание

Я аналитик данных, и каждый день передо мной стоят задачи по сбору/анализу/проектированию данных для отчетов или приложений. С каждым днем количество источников увеличивается, а объем самих данных растет прямо пропорционально времени переработок. При появлении нового источника данных цепочка действий, обычно, следующая:

  • пишешь DevOps-ам/разработчикам о появлении нового источника;
  • получаешь оценку возможности интеграции;
  • в случае сервиса, ждешь пока пройдет интеграция;
  • в случае БД, ждешь пока развернут СУБД;
  • запрашиваешь у Заказчика обезличенный бэкап;
  • просишь DevOps-а/разработчика загрузить бэкап.

При успешном выполнении всех шагов я наконец-то смогу изучить данные (разбавляем все эти шаги заведением задач в JIRA и ожиданием, пока они пойдут в работу).

Логичные вопросы, которые могут возникнуть у внимательного читателя:

  • Почему самой не развернуть бэкап?
  • В чем сложность оценки интеграции?
  • Почему каждый раз вы разворачиваете СУБД, если такие кейсы повторяются?

Окей, но как это сократит мое время? Невозможно предусмотреть все виды источников, архитектуры сервисов и заранее развернуть у себя всевозможные СУБД. Никто не знает, хранит ли Заказчик данные у себя в красивой БД или же в экселевском файле в папке «Разобрать».

Следующим острым вопросом является то, как эти данные обрабатывать? С помощью каких инструментов, как их сравнивать и объединять?

В результате можно подытожить, что сложность сбора данных, отсутствие единого интерфейса для управления данными, а, главное, многообразие библиотек и инструментов ведет к часам (а иногда и неделям), потраченным на подготовительную работу. Не круто.

Маховик времени

С учетом сформулированных проблем и отсутствием маховика времени вопрос стоял более, чем остро, и я решительно направилась к нашему отделу разработки.

И именно о реализованном ими инструменте я хочу рассказать в данной статье, об облачной системе iDVP.Data SaaS.

iDVP.Data SaaS — это многофункциональный инструмент для работы с данными в облаке, который позволяет подключать различные данные, преобразовывать их и отдавать во внешние системы, как веб-сервисы. Для наглядности расскажу про функциональные возможности платформы на примере подключения данных по серии фильмов о Гарри Поттере.

Первым делом зайдем на сайт iDVP.Data SaaS и зарегистрируемся.

После этого мы попадаем на рабочую страницу пользователя, где есть рабочие пространства с тестовыми кейсами. В них представлены потоки данных от подключения источника данных до витрины данных.

Изучив тестовые примеры и добавив новое рабочее пространство, перейдем к созданию собственного потока данных. В качестве источников данных (частично с сайта Harry Potter API) у нас есть:

  • REST cервис, возвращающий информацию об основных магических домах, включая информацию о директорах, цветах флагов и основателях;
  • таблица в Postgres 10, хранящая информацию об основных персонажах серии фильмов;
  • файл в формате XLSX, где указаны основные заклинания.

Шаг 1. Подключить

Поочередно подключаем данные:

В результате получаем три подключенных источника данных:

  • houses_raw — сервис;
  • characters_raw — БД;
  • spells — файл в формате XLSX.

Шаг 2. Преобразовать

После подключения данных создаем наборы данных (Datasets), где выполняем необходимые преобразования (очистка данных, вычисления или, например, парсинг данных из JSON) при помощи SQL-скриптов.

В результате получаем распарсенные данные:

И такую цепочку потоков данных:

После подключения данных и их преобразования скорость доступа полученной информации все еще может быть низка (из-за долгого ответа источника или из-за большого объема данных). Здесь срабатывает механизм «материализации» (сохранения) данных в самой iDVP.Data SaaS. Обращение к сохраненным данным осуществляется крайне быстро даже при работе с большими объемами информации за счет использования технологий BigData. Сохраненные данные в любой момент можно обновить (полностью или частично), а также настроить расписание, по которому система будет их обновлять автоматически.

Таким образом, есть возможность накапливать исторические данные, даже если сам источник этого не поддерживает. Материализация также помогает продолжать работу с данными, в случае если источник становится недоступным, за счет сохранения в файловой системе iDVP.Data SaaS.

Шаг 3. Опубликовать

Создаем web-сервисы (или витрины), которые также представляют собой SQL-запросы. В витрине данных можно определить входные и выходные параметры.

После того, как витрины данных созданы, их можно публиковать в открытый доступ и использовать в своих внешних системах.

Полученный сервис можно использовать для построения отчетов и 3D приложений, как, например, мы это делали для визуализации данных Выборов 2018.

Выводы

Если вам также, как и мне, надоело мучать ваших DevOps-ов и разработчиков, тратить свое время впустую на подключение данных и создание тасков, то можно воспользоваться системой iDVP.Data SaaS, которая на данный момент проходит этап бета-тестирования. Наша команда надеется, что среди вас, дочитавших эту историю до конца, есть те, кто станут первыми тестировщиками нашего нового инструмента.

Вы сможете самостоятельно:

  • подключаться к различным источникам;
  • единообразно получать данные из любых источников;
  • выполнять ETL-преобразования данных при помощи SQL;
  • повышать скорость работы с данными с помощью технологий BigData;
  • анализировать данные;
  • предоставлять данные во внешние системы;
  • осуществлять все эти операции в удобном и простом интерфейсе.

Заранее спасибо за обратную связь!

#новость#стартапы

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Елена Шибанова", "author_type": "self", "tags": ["\u0441\u0442\u0430\u0440\u0442\u0430\u043f\u044b","\u043d\u043e\u0432\u043e\u0441\u0442\u044c","\u043d\u043e\u0432\u043e\u0441\u0442\u0438"], "comments": 0, "likes": 11, "favorites": 1, "is_advertisement": false, "subsite_label": "tribuna", "id": 39381, "is_wide": false, "is_ugc": true, "date": "Tue, 31 Jul 2018 11:00:02 +0300" }
{ "id": 39381, "author_id": 173889, "diff_limit": 1000, "urls": {"diff":"\/comments\/39381\/get","add":"\/comments\/39381\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/39381"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199116, "possessions": [] }

Комментариев нет 0 комм.

Популярные

По порядку

0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Нейронная сеть научилась читать стихи
голосом Пастернака и смотреть в окно на осень
Подписаться на push-уведомления
{ "page_type": "default" }