{"id":3086,"title":"\u041f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043c\u043e\u043d\u0438\u0442\u043e\u0440\u044b \u0434\u043b\u044f \u0440\u0430\u0431\u043e\u0442\u044b \u0441 \u0433\u0440\u0430\u0444\u0438\u043a\u043e\u0439 \u0438 \u043d\u0435 \u0442\u043e\u043b\u044c\u043a\u043e","url":"\/redirect?component=advertising&id=3086&url=https:\/\/vc.ru\/promo\/226826-lg-ergo&hash=b97f5778039cc6f8fd721914b0af695fd7cdab5c702257d179ee14d676b227a8","isPaidAndBannersEnabled":false}
Трибуна
Varya Sharova

DataShow — бесплатное веб-приложение для поиска, визуализации и скачивания открытых данных

Всем привет! Меня зовут Варя и я со-основатель DataShow. Хочу поделиться тем, как родилась идея оптимизации сбора открытых данных, чью проблему мы решаем и как мы это делаем :)

Во-первых, предыстория!

Мне 23, я заканчиваю магистратуру по экономике в одном из лучших университетов Германии, и вот уже шесть лет я занимаюсь аналитикой открытых данных (это те, что в открытом доступе, например, которые публикуются Всемирным Банком:)). Я провела очень много времени на сайтах Всемирного Банка, МВФ, и других. И честно говоря, процесс сбора открытых данных — это весьма утомительный и вообще не быстрый процесс. Например, сайт МВФ очень медленно работает и, что более критично, имеет очень непонятную структуру.

Мой со-основатель, как и очень много (как выяснилось чуть позже) других студентов и аналитиков, тоже считает процесс сбора данных одним из наиболее времязатратных и требующих оптимизации процессов. И вот в октябре прошлого года мы после очередного разговора о том, насколько же это неприятный процесс, решили, что нужно что-то придумать. И придумали!

Во-вторых, идея и ее реализация!

Мы придумали сделать приложение, где любой желающий может найти те открытые данные, которые ему нужны, и получить бесплатный доступ к табличке и красивой визуализации (которую можно под себя настроить😊).

Как это работает

Сейчас на стартовой странице расположена наиболее популярная статистика из подключенных к системе источников. Специалистам, которым нужны специфические данные, нужно выбрать в левом верхнем углу конкретный источник.

Мы добавили под поисковой строкой наиболее популярные индикаторы, разделенные по темам, чтобы пользователю было проще искать необходимые данные:).

Чтобы начать поиск достаточно выбрать хотя бы один показатель (например, GDP (current US$)). Такой запрос выдаст данные по всем странам за последний доступный период (год). В строке поиска можно указать страну (или страны), временной промежуток (год, в некоторых случаях - квартал или месяц). Запрос к данным ВОЗ можно специфицировать полом (мужской/женский), если нужны данные по конкретному полу.

В-третьих, как работает алгоритм?

Алгоритм отправляет запрос пользователя через API на сайт агрегатора (например, МВФ) и выдает результат этого запроса в виде таблицы и картинки. Мы хотим сохранить оригинальные данные неизменными, поэтому помещаем их в таблицу точно такими же, какие они приходят по запросу. Так, мы не переводим большие цифры в миллионы или миллиарды, что не очень удобно, зато позволяет пользователю быть уверенным в их источнике!

Ну и напоследок: послесловие.

С момента релиза вышло уже два крупных обновления. Пока что конкретных цифр по проекту нет, но как только они появятся я вернусь с ними в будущих постах. Но сейчас нам очень нужны вы!

Мы планируем добавлять новые фичи и новые источники данных. И ваш фидбэк нам очень поможет! Для этого приглашаю вас написать мне здесь в комментариях или в специальной форме на главной странице приложения. С Вас - честный фидбэк, с нас - приятные бонусы в будущем:)

Мы очень рады конструктивной критике!

{ "author_name": "Varya Sharova", "author_type": "self", "tags": [], "comments": 24, "likes": 56, "favorites": 183, "is_advertisement": false, "subsite_label": "tribuna", "id": 230328, "is_wide": false, "is_ugc": true, "date": "Tue, 06 Apr 2021 16:16:53 +0300", "is_special": false }
0
24 комментария
Популярные
По порядку
Написать комментарий...
8

Сейчас основным условием является то, что надо выбрать источник данных. Из моего опыта, когда кому-то нужны данные, то популярны такие сценарии:

1. известно, какие конкретно данные нужны, но непонятно, откуда их брать
2. известно, на какой вопрос нужно ответить (бизнес-задача), но непонятно, какие конкретно данные и откуда помогут ответить на этот вопрос

Любимый вариант маркетологов ("пойди туда не знаю куда принеси то не знаю что") рассматривать не будем.

Пожелания:

1. я как пользователь ввожу какие-нибудь слова, а вы мне предлагаете датасеты, в схеме которых хотя бы есть знакомые строки; то есть семантический поиск как в интернет-магазине :)

Пример: я журналист, пишу что-нибудь про экономику и, например, решил не пользоваться гуглом, а взять из вашей базы цифры о российском ВВП, выбираю WorldBank, ввожу "Russia GDP", а он мне ничего не предлагает, а по сути совпадение есть при строгом вводе: GDP (current US$); Russian Federation;

2. сейчас при выборе датасета не совсем понятно, что в нем есть (а хочется сразу отправить как можно более точный запрос); видно что у вас саджест формируется из словаря в js, мне кажется, можно его просто сразу показывать пользователю где-нибудь над полем ввода

(спустя 15 минут увидел, что вроде эта схема отрисовывается где-то снизу, но она почему-то то пропадает, то появляется)

3. поиск не только по открытым датасетам, но и по платным (как у гугловского datasetsearch), хотя это, наверно, не совсем соответствует первоначальной идее проекта

4. обработку ошибок на форме (сейчас написал в строке недостаточно полный запрос - непонятно, почему форма не отправляется)

5. возможность скопировать исходное тело запроса (например, я использовал ваш сайт для поиска данных по всем этим базам, нашел нужные мне и хочу просто скопировать себе в блокнот запрос к api, чтобы самостоятельно к ним обращаться)

6. сортировка результата

7. приведение к одному типу и нормализация значений (например gdp usa отображается с 12 нулями (в долларах): 21433226000000 - по-моему, не очень удобно в таком ориентироваться

8. по самой клиентской части подлатать много все, кнопочки там разные не работают, например :)

9. узкий кейс, опять же, про семантический поиск: если я изучаю данные из какого-то источника, а вы, зная смысл моего запроса, видите в индексе удовлетворяющий этот запрос датасет, но с более свежими данными - ненавзячиво ообщать мне об этом, возможно, я захочу им воспользоваться

а вообще молодцы! хорошее дело

Ответить
2

Спасибо огромное! По всем этим пунктам подумаем, будем совершенствоваться:) Как только появятся изменения, я вернусь с апдейтом здесь.  

Ответить

Комментарий удален

2

Саджест нерабочий: прилетающий JSON отображается зачем-то в консоли, на странице же ничего не просиходит. Да и вообще с UI-ем прям беда — весьма неинтуитивно и вёрстка будто на скорую руку делалась + трекеры gtag и ym подключены криво, прямиком после доктайпа в комментарии, теряете аналитику. Выглядит всё дипломным проектом, не более.
Ещё вопрос — в чём отличие от, например, Google Public Data (или того же kaggle)?

Ответить
1

Спасибо большое за комментарий!
Про отличия: на kaggle нет экономических данных, а на Google Public Data есть далеко не вся статистика:)
Не очень понимаю, Вы сидите с компьютера или мобильного телефона? В мобильной версии была убрана кнопка поиска специально, с этим связана неинтуитивность дизайна, на Ваш взгляд?

Ответить
0

Я захожу с компа. Не интуитивный и нерабочий UX от слова совсем. Даже если сообразить, как дойти до получения результата, результат отображается нормально исключительно в Google Chrome. В Firefox консоль пестрит ошибками.

Ответить
1

Спасибо за комментарий, учтем:)

Ответить
2

Зашёл, чтобы прочитать "чью проблему мы решаем". Как я понял из статьи, только вашу, вашего со-основателя и "любого желающего". Как-то очень расплывчато. Кто ЦА и как собираетесь зарабатывать, если не секрет?

Ответить
1

Сейчас наша целевая аудитория — это студенты и аналитики, которым необходим доступ к открытым данным. Сам по себе процесс сбора открытых данных довольно долгий и сложный, мы хотим его максимально упростить. Наша позиция подразумевает бесплатный доступ к открытым бесплатным данным, монетизация будет за счет рекламы и других будущих сервисов:)

Ответить
0

Поддерживаем вопрос

Ответить
1

Отличный проект! Желаю успеха!

Ответить
1

Но вообще, решил глянуть выбросы CO2 и в итоге ничегошеньки не получилось. "Sorry, information about indicator: CO2 emissions (metric tons per capita)(2019) ( World Bank ) is not available for" - и далее перечисление огромного списка стран + проблемная верстка.

Ответить
2

Спасибо большое! Не заметили эту ошибку в этом конкретном случае, исправили!

Ответить
0

А по мне так круто. Давно шукал, где б открытые данные взять для визуализации в канвас апи.

Ответить
3

Так их давно уж десятки, если не сотни, по любой тематике: https://learn.g2.com/open-data-sources

Ответить
2

Отличная ссылка, спасибо! А есть такая же подборка, но по российским открытым данным?

Ответить
1

Да! что у нас там отечественными данными? ж)

Ответить
1

А фиг знает, эти-то ведь на первой странице выдачи малоизвестного поискового сервиса Google по очень сложному поисковому запросу "open data sources" вываливаются. Может вдруг тоже есть какой-то очень хитрый запрос (возможно, даже на русском языке), по которому можно найти и отечественные датасеты, как думаете?

Ответить
0

Та вы пробуйте! о качестве и убедительности результата только не забудьте сообщить

Ответить
1

Спасибо за ссылку.

Ответить
1

Цель приложения - объединить данные из нескольких источников, чтобы было удобнее их искать, визуализировать и скачивать. Мы знаем как в приведенных источниках сложно найти данные, поэтому и сделали приложение. 

Ответить
1

Очень интересный проект!! Спасибо большое, поможет для написания работ в университете! Удачи вам!!

Ответить
0

Варя - вы большие молодцы что сделали такой проект, но вам сложно будет конкурировать с грандами такими как https://knoema.com. Приходите к нам работать :-) Ну или можем просто пообщаться, расскажу про подводные камни, я - сооснователь. 

Ответить
1

Большое спасибо, Владимир! С удовольствием пообщаемся:)

Ответить
0

Идея хорошая 

Ответить

Комментарии

null