Продвинутый анализ данных: быстрее, проще, дешевле
Аналитика не для всех
Подавляющее большинство компаний считают, что сегодня наиболее важные для бизнеса задачи связаны с продвинутой аналитикой: прогнозирование, оптимизация, сегментация, скоринг и подобные. Однако решение этих актуальных и нетривиальных задач так и не стало массовым.
Убедиться в этом несложно — достаточно пообщаться с аналитиками, которые каждый день решают эти задачи, используя очень простые методы решения. Если прогнозирование — то скользящее среднее, если сегментация — то делим по полу и возрасту... Все остальное время уходит на подготовку отчетов.
Вокруг машинного обучения и нейросетей много информационного шума, который мешает сделать правильные выводы относительно реального положения дел в большинстве компаний. На автомобильных выставках большинство посетителей интересуется концепт-карами, про них больше всего статей в автомобильных журналах... Но количество информации совершенно не соответствует тому, что мы видим каждый день на улицах: многие мечтают иметь автомобили будущего, но мало кто может это себе позволить. И это никому не мешает обсуждать достоинства Bugatti Veyron.
Сложность инструментов — важный фактор, сдерживающий массовое применение продвинутой аналитики. Казалось бы, при наличии бесплатных Python или R, любой бухгалтер или маркетолог должен самостоятельно писать скрипты и ежедневно их использовать. Но этого не происходит, потому что кривая обучения любому языку программирования слишком крутая, и большинство людей применяет другие более простые инструменты.
Задачи продвинутой аналитики актуальны, важны и интересны, но порог входа слишком высокий. Опытные специалисты в предметных областях, отлично разбирающиеся в бизнесе, используют привычные электронные таблицы не потому, что считают их лучшими, а потому, что это быстрее и проще.
Слишком круто для слишком многих
Продукт, претендующий на право стать ежедневным инструментом миллионов людей, должен иметь не крутую, а пологую кривую обучения. В этом случае даже минимальные знания позволяют пользователю получать результаты быстро, а каждая следующая небольшая порция знаний открывает новые возможности.
Это повышает мотивацию и вовлеченность, позволяет почувствовать пользу от выполненной работы здесь и сейчас. Кроме того, пологая кривая обучения стимулирует коллег присоединиться к тем, кто уже использует продукт, и тоже начать применять его для регулярной работы. Продукт, который проще в два раза, будет популярнее в 10-20 раз.
Помимо пологой кривой обучения массовый инструмент продвинутой аналитики должен помогать достаточно быстро обрабатывать большие объемы данных. Во-первых, потому, что компании действительно аккумулируют все больше информации. Во-вторых, для маленьких объемов данных есть Excel, который знают все поголовно. Для того чтобы человек потратил время на изучение чего-то нового, нужны сильные доводы.
Порог входа для начала использования Excel очень низок, в результате именно он является самым распространенным инструментов аналитика. Excel, конечно, решает не все задачи, но если его возможностей достаточно, то пользователь не будет изучать что-то дополнительно. Это рациональное решение: зачем тратить дефицитное время на изучение нового, если задачи достаточно хорошо решаются уже знакомым инструментом?
Однако аналитики все чаще сталкиваются с тем, что Excel или вообще не позволяет обработать нужные объемы данных, или делает это слишком медленно. Именно поэтому у них возникает потребность в инструменте, с помощью которого можно обработать много данных, и аналитики готовы потратить время на его изучение. Объемы обрабатываемых данных — самая явная, но не единственная проблема при попытке применения Excel для решения задач продвинутой аналитики.
Кроме того, необходимо учесть еще один неочевидный фактор в пользу простого аналитического инструмента. Продвинутая аналитика предполагает решение нетривиальных задач. Как следствие, далеко не всегда пользователь уверен, что задача будет решена с приемлемым для него результатом: могут возникнуть проблемы с качеством данных, точностью прогноза, нестабильностью решения и прочее. А значит, можно потратить много времени и не получить желаемый результат.
Продвинутая аналитика — это не построение отчетов. Она предполагает выдвижение гипотез с последующей попыткой их доказать или опровергнуть. Проблема в том, что только после проведения эксперимента можно понять, насколько работоспособна гипотеза. До начала анализа это сделать сложно, а желающих тратить время на изучение продукта и эксперименты с негарантированным результатом — немного.
Раздаем продвинутую аналитику. Бесплатно
Для людей, которые чувствуют потребность в продвинутой аналитике и сталкиваются с описанными выше проблемами, есть решение, позволяющее с минимальными усилиями начать знакомство с новыми технологиями, — бесплатная редакция аналитической платформы Loginom Community Edition. Она предназначена для некоммерческого применения, при этом не налагает каких-либо ограничений по времени работы или объему обрабатываемых записей.
Эта система позволяет решать широкий спектр задач продвинутой аналитики: консолидация данных, сегментация клиентов, прогнозирование, оптимизация запасов, визуализация. При этом Loginom — это low-code платформа с пологой кривой обучения. Почти все в нем можно сделать при помощи визуального проектирования, не написав ни единой строчки кода.
Бесплатная редакция Loginom обрабатывает большие массивы данных благодаря расчетам в памяти и параллельным вычислениям. Программа обладает асинхронным пользовательским интерфейсом, т.е. при выполнении долгих расчетов пользователю не нужно ждать их завершения — он может продолжать работу в системе.
Мы предоставляем Loginom вузам для обучения, поддерживаем преподавателей и совершенствуем академическую программу. Развиваем наше комьюнити: готовим видео, статьи, демопримеры. Проводим Хакатоны, где студенты решают реальные бизнес-задачи. Таким образом, мы стремимся привить любовь к анализу данных у будущих специалистов.
А с 9 по 13 ноября 2020 года мы проводим пятидневную online-конференцию Loginom Days, где покажем новые фишки платформы и продемонстрируем кейсы компаний, внедривших продвинутую аналитику в свой бизнес-процесс. Регистрируйтесь и узнайте, как прокачать Data Science без программистов.
А на сколько большие объемы данных можно использовать?
Десятки миллионов - легко. Сотни миллионов - нормально. Больше тоже можно, но для комфортной работы придется использовать некоторые ухищрения, типа сэмплинга или параллельных расчетов, т.е. уже не совсем решения в лоб. При этом код писать не придется.
Loginom хорошо утилизирует железо, поэтому чтобы почувствовать всю мощь хорошо бы его установить на компьютер посерьезнее.
Крайне любопытно. Ваше решение в плане производительности лучше работает, чем Tableau?
Зачем доверять тому, что говорят разработчики? Ясно, что каждый будет делать акцент на сильные стороны своего продукта. Можно же скачать с сайта и самому оценить. Это бесплатно - https://loginom.ru/download.
Экспертная оценка экономит время. Если бы автор сказал, что инструмент работает с сотнями тысяч записей, то я бы понял, что мне проще использовать Эксель, который работает до 1 млн записей. Автор заявляет о миллионах и это повод присмотреться, например.
В Excel через Power Query вы можете и с 100 млн строк работать
Это точно. При помощи SQL запроса можно абсолютно в любой программе обрабатывать любой объем данных. :)
Когда речь идет о количестве обрабатываемых записей, то конечно имеется в виду, что эти данные могут быть загружены в тот продукт, про который рассказывается и там же обработаны. На то аналитическая система и нужна.
Вот технические характеристики Excel: до 1 048 576 строк и до 16 384 столбца. И это максимальный размер, при работе с которым будут серьезные тормоза. Про 100 млн. записей речь не идет вообще. По крайней мере, у Microsoft про это ничего не сказано.
Говорить о том, что в Excel можно обработать более миллиона записей мягко говоря некорректно. Из Excel можно подключиться к большой БД, выдернуть оттуда выборку в 1 млн. записей - это точно, но если хотите работать с большими объемами, то обрабатывать придется на стороне сервера. В этом случае все прелести Excel испаряются.
Спасибо за ваш подробный комментарий, тоже удивился
В смысле, каким образом? Адресация Экселя вроде как не позволяет больше миллиона. Как в этом вопросе поможет Power Query?
Это вообще разные вещи.
Tableau - это больше про визуализацию, а не продвинутую аналитику. Более того, у нас есть экспорт в Tableau. Например, вот пример того, как в Loginom прогнозируется популярность банкоматов, а результаты затем выгружаются и визуализируются Tableau - https://youtu.be/qbvpHyACUnw.
Кстати, не только в Tableau, но и в другие BI продукты, например Visiology, вот демонстрация - https://www.youtube.com/watch?v=MovcZwgAmb8.
Комментарий удален модератором