DataShow — бесплатное веб-приложение для поиска, визуализации и скачивания открытых данных

Всем привет! Меня зовут Варя и я со-основатель DataShow. Хочу поделиться тем, как родилась идея оптимизации сбора открытых данных, чью проблему мы решаем и как мы это делаем :)

Во-первых, предыстория!

Мне 23, я заканчиваю магистратуру по экономике в одном из лучших университетов Германии, и вот уже шесть лет я занимаюсь аналитикой открытых данных (это те, что в открытом доступе, например, которые публикуются Всемирным Банком:)). Я провела очень много времени на сайтах Всемирного Банка, МВФ, и других. И честно говоря, процесс сбора открытых данных — это весьма утомительный и вообще не быстрый процесс. Например, сайт МВФ очень медленно работает и, что более критично, имеет очень непонятную структуру.

Мой со-основатель, как и очень много (как выяснилось чуть позже) других студентов и аналитиков, тоже считает процесс сбора данных одним из наиболее времязатратных и требующих оптимизации процессов. И вот в октябре прошлого года мы после очередного разговора о том, насколько же это неприятный процесс, решили, что нужно что-то придумать. И придумали!

Во-вторых, идея и ее реализация!

Мы придумали сделать приложение, где любой желающий может найти те открытые данные, которые ему нужны, и получить бесплатный доступ к табличке и красивой визуализации (которую можно под себя настроить😊).

Как это работает

Сейчас на стартовой странице расположена наиболее популярная статистика из подключенных к системе источников. Специалистам, которым нужны специфические данные, нужно выбрать в левом верхнем углу конкретный источник.

Мы добавили под поисковой строкой наиболее популярные индикаторы, разделенные по темам, чтобы пользователю было проще искать необходимые данные:).

Чтобы начать поиск достаточно выбрать хотя бы один показатель (например, GDP (current US$)). Такой запрос выдаст данные по всем странам за последний доступный период (год). В строке поиска можно указать страну (или страны), временной промежуток (год, в некоторых случаях - квартал или месяц). Запрос к данным ВОЗ можно специфицировать полом (мужской/женский), если нужны данные по конкретному полу.

В-третьих, как работает алгоритм?

Алгоритм отправляет запрос пользователя через API на сайт агрегатора (например, МВФ) и выдает результат этого запроса в виде таблицы и картинки. Мы хотим сохранить оригинальные данные неизменными, поэтому помещаем их в таблицу точно такими же, какие они приходят по запросу. Так, мы не переводим большие цифры в миллионы или миллиарды, что не очень удобно, зато позволяет пользователю быть уверенным в их источнике!

Ну и напоследок: послесловие.

С момента релиза вышло уже два крупных обновления. Пока что конкретных цифр по проекту нет, но как только они появятся я вернусь с ними в будущих постах. Но сейчас нам очень нужны вы!

Мы планируем добавлять новые фичи и новые источники данных. И ваш фидбэк нам очень поможет! Для этого приглашаю вас написать мне здесь в комментариях или в специальной форме на главной странице приложения. С Вас - честный фидбэк, с нас - приятные бонусы в будущем:)

Мы очень рады конструктивной критике!

5757
24 комментария

Сейчас основным условием является то, что надо выбрать источник данных. Из моего опыта, когда кому-то нужны данные, то популярны такие сценарии:

1. известно, какие конкретно данные нужны, но непонятно, откуда их брать
2. известно, на какой вопрос нужно ответить (бизнес-задача), но непонятно, какие конкретно данные и откуда помогут ответить на этот вопрос

Любимый вариант маркетологов ("пойди туда не знаю куда принеси то не знаю что") рассматривать не будем.

Пожелания:

1. я как пользователь ввожу какие-нибудь слова, а вы мне предлагаете датасеты, в схеме которых хотя бы есть знакомые строки; то есть семантический поиск как в интернет-магазине :)

Пример: я журналист, пишу что-нибудь про экономику и, например, решил не пользоваться гуглом, а взять из вашей базы цифры о российском ВВП, выбираю WorldBank, ввожу "Russia GDP", а он мне ничего не предлагает, а по сути совпадение есть при строгом вводе: GDP (current US$); Russian Federation;

2. сейчас при выборе датасета не совсем понятно, что в нем есть (а хочется сразу отправить как можно более точный запрос); видно что у вас саджест формируется из словаря в js, мне кажется, можно его просто сразу показывать пользователю где-нибудь над полем ввода

(спустя 15 минут увидел, что вроде эта схема отрисовывается где-то снизу, но она почему-то то пропадает, то появляется)

3. поиск не только по открытым датасетам, но и по платным (как у гугловского datasetsearch), хотя это, наверно, не совсем соответствует первоначальной идее проекта

4. обработку ошибок на форме (сейчас написал в строке недостаточно полный запрос - непонятно, почему форма не отправляется)

5. возможность скопировать исходное тело запроса (например, я использовал ваш сайт для поиска данных по всем этим базам, нашел нужные мне и хочу просто скопировать себе в блокнот запрос к api, чтобы самостоятельно к ним обращаться)

6. сортировка результата

7. приведение к одному типу и нормализация значений (например gdp usa отображается с 12 нулями (в долларах): 21433226000000 - по-моему, не очень удобно в таком ориентироваться

8. по самой клиентской части подлатать много все, кнопочки там разные не работают, например :)

9. узкий кейс, опять же, про семантический поиск: если я изучаю данные из какого-то источника, а вы, зная смысл моего запроса, видите в индексе удовлетворяющий этот запрос датасет, но с более свежими данными - ненавзячиво ообщать мне об этом, возможно, я захочу им воспользоваться

а вообще молодцы! хорошее дело

10
Ответить

Спасибо огромное! По всем этим пунктам подумаем, будем совершенствоваться:) Как только появятся изменения, я вернусь с апдейтом здесь.  

2
Ответить

Зашёл, чтобы прочитать "чью проблему мы решаем". Как я понял из статьи, только вашу, вашего со-основателя и "любого желающего". Как-то очень расплывчато. Кто ЦА и как собираетесь зарабатывать, если не секрет?

2
Ответить

Сейчас наша целевая аудитория — это студенты и аналитики, которым необходим доступ к открытым данным. Сам по себе процесс сбора открытых данных довольно долгий и сложный, мы хотим его максимально упростить. Наша позиция подразумевает бесплатный доступ к открытым бесплатным данным, монетизация будет за счет рекламы и других будущих сервисов:)

2
Ответить

Поддерживаем вопрос

Ответить

Саджест нерабочий: прилетающий JSON отображается зачем-то в консоли, на странице же ничего не просиходит. Да и вообще с UI-ем прям беда — весьма неинтуитивно и вёрстка будто на скорую руку делалась + трекеры gtag и ym подключены криво, прямиком после доктайпа в комментарии, теряете аналитику. Выглядит всё дипломным проектом, не более.
Ещё вопрос — в чём отличие от, например, Google Public Data (или того же kaggle)?

2
Ответить