DataShow — бесплатное веб-приложение для поиска, визуализации и скачивания открытых данных

Всем привет! Меня зовут Варя и я со-основатель DataShow. Хочу поделиться тем, как родилась идея оптимизации сбора открытых данных, чью проблему мы решаем и как мы это делаем :)

5757

Сейчас основным условием является то, что надо выбрать источник данных. Из моего опыта, когда кому-то нужны данные, то популярны такие сценарии:

1. известно, какие конкретно данные нужны, но непонятно, откуда их брать
2. известно, на какой вопрос нужно ответить (бизнес-задача), но непонятно, какие конкретно данные и откуда помогут ответить на этот вопрос

Любимый вариант маркетологов ("пойди туда не знаю куда принеси то не знаю что") рассматривать не будем.

Пожелания:

1. я как пользователь ввожу какие-нибудь слова, а вы мне предлагаете датасеты, в схеме которых хотя бы есть знакомые строки; то есть семантический поиск как в интернет-магазине :)

Пример: я журналист, пишу что-нибудь про экономику и, например, решил не пользоваться гуглом, а взять из вашей базы цифры о российском ВВП, выбираю WorldBank, ввожу "Russia GDP", а он мне ничего не предлагает, а по сути совпадение есть при строгом вводе: GDP (current US$); Russian Federation;

2. сейчас при выборе датасета не совсем понятно, что в нем есть (а хочется сразу отправить как можно более точный запрос); видно что у вас саджест формируется из словаря в js, мне кажется, можно его просто сразу показывать пользователю где-нибудь над полем ввода

(спустя 15 минут увидел, что вроде эта схема отрисовывается где-то снизу, но она почему-то то пропадает, то появляется)

3. поиск не только по открытым датасетам, но и по платным (как у гугловского datasetsearch), хотя это, наверно, не совсем соответствует первоначальной идее проекта

4. обработку ошибок на форме (сейчас написал в строке недостаточно полный запрос - непонятно, почему форма не отправляется)

5. возможность скопировать исходное тело запроса (например, я использовал ваш сайт для поиска данных по всем этим базам, нашел нужные мне и хочу просто скопировать себе в блокнот запрос к api, чтобы самостоятельно к ним обращаться)

6. сортировка результата

7. приведение к одному типу и нормализация значений (например gdp usa отображается с 12 нулями (в долларах): 21433226000000 - по-моему, не очень удобно в таком ориентироваться

8. по самой клиентской части подлатать много все, кнопочки там разные не работают, например :)

9. узкий кейс, опять же, про семантический поиск: если я изучаю данные из какого-то источника, а вы, зная смысл моего запроса, видите в индексе удовлетворяющий этот запрос датасет, но с более свежими данными - ненавзячиво ообщать мне об этом, возможно, я захочу им воспользоваться

а вообще молодцы! хорошее дело

10
Ответить

Спасибо огромное! По всем этим пунктам подумаем, будем совершенствоваться:) Как только появятся изменения, я вернусь с апдейтом здесь.  

2
Ответить