{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Кто такой data scientist? Ответ в этом батле!

Всех с пятницей! Так кто же такие эти дата сайентисты? Baba Brinkman популярно объясняет, да еще и делает это в формате рэп-батла! Мы сделали вольный перевод. Смотрите, что получилось)

Видео Data scientist Vs statistician by Baba Brinkman по ссылке

Привет! С вами Игорь Кузин, CEO в Smart Analytics. Не так давно мы с коллегами наткнулись на видео Бабы Бринкмэна (реальное имя Дирк Мюрэй Бринкмэн), в котором он сравнивает подходы дейта сайентиста и классического статиста. Баба вообще и известен тем, что он читает рэп на тему науки.

Дата сайентист здесь такой модный и современный, а статист – это такой дедушка с бумажной бородой в олдовом костюме, что уже само по себе отражает характер противостояния между «наукой о данных» и классической статистикой.

Итак, давайте вместе с Бабой разберемся, кто же такой data scientist и чем же принципиально подход «науки о данных» отличается от обычной статистики? Поехали!

Раунд первый

По итогам жеребьевки начинает МС слева. Дайте шума!

И дата сайентист сразу начинает с панча! Он говорит о том, что:

  • «наука о данных» основана на алгоритмическом подходе, т.е. неотделима от использования вычислительных машин, по сути; в то время как классическая статистика и ее методы принципиально не завязаны на машины;
  • линейная регрессия это как бы «отстой»; для тех, кто не знает что это, скажу по-простому: это типа линия тренда на графике в виде прямой (если что, вот ссылка на вики);
  • предсказание – это, вероятно, центральный объект «науки о данных».

И вот на значимости предсказания давайте остановимся отдельно. Почему это так важно? Почему это, может быть, вообще самое важно в data science? Давайте разберемся!

Почему мы вообще анализируем статистику? Копаемся в данных, в срезах и метриках? Мы пытаемся понять, что эффективно, а что нет. В то, что эффективно, мы должны вкладывать больше ресурсов (обычно денег), а в то, что неэффективно, вкладывать меньше (урезать бюджет на такие сегменты). Это очень просто! Правда, есть деталь. Мы это делаем не потому, что нам очень интересно прошлое. Мы уверены в том, что в будущем будет примерно то же, что и в прошлом. Это называется «нативная модель прогнозирования», когда мы на будущие периоды экстраполируем попросту то, что было в прошлом. Обратите внимание: мы тоже прогнозируем! Просто вот так вот, по-простому, «нативно».

Но реальность в том, что в будущем может вовсе не быть так, как в прошлом! Для этого нам-то и нужно качественное прогнозирование. И для хорошего прогноза без ИИ в том или ином виде не обойтись.

Вангую: в будущем не будет систем аналитики в текущем виде, когда эти системы, по сути, являются системами статистики и визуализации. В будущем главным продуктом систем аналитики будут прогнозные данные, которые мы как раз-то на самом деле и хотим получить для оптимизации (часто даже сами того не осознавая).

Но вернемся к видео. Что же там дальше?

Статист наносит ответный удар! Он говорит о том, что дата сайентисты используют алгоритмы, работа которых сама по себе мало предсказуема и объяснима. Т.е. данные, по сути, закачиваются в некую «шайтан-машину», и на выходе получается некий результат. Что внутри этого «черного ящика», как именно он сработал, - до конца не известно. И как можно вообще опираться на такое «нечто», как понять, корректны ли выводы или нет?

Дайта сайентист отвечает, что может это и «черный ящик», но он дает точные ответы. Причем применим в абсолютно любых сферах жизни. И да, он не считает, что коробка «черная», она скорее «прозрачная», т.е. мы же сами и создаем те алгоритмы, которые будут отрабатывать в этой «коробке».

Тут статист подкалывает дата сайентиста. Типа, «ага, ну да, вы это все делаете с помощью прослеживаемой математики». Да, и действительно, математика «черного ящика» не всегда прослеживаема. Взять хотя бы известный метод кластеризации k-means. Ну он же, зараза, постоянно выдает разные данные на одном и том же массиве данных! Да, на самом деле, есть целая масса улучшенных вариаций k-means (например, «k-means++»), да и вовсе других методов кластеризации. Однако это вот как раз тот самый случай «непрослеживаемой математики».

Раунд второй

МС справа, жги!

Да, есть такая проблема! Сейчас уже практически каждый может взять какую-то ML-библиотеку на python и сгенерить нечто. И без какого-то базового понимания принципов статистики это действительно похоже на некую форму невежества...

Какооой панч-лайн! Ну вот, коллеги нас и раскусили)) Спасибо Бабе за игру слов «data model» (модель данных) и «date a model» (встречаться с моделью).

Да и действительно, может и не так важно как именно это работает, если качество прогноза высокое? И может и не стоит бояться «черного ящика»? Ведь сама природа так же малообъяснима, как этот «черный ящик»?

Шум! Шум! Шум!

Раунд третий

Ииии это панч! Да, в «науке о данных» есть немало нерешенных вопросов, но ведь она ох-как активно развивается! И с таким «дедушкиным» подходом никогда не достичь прорыва.

Статист опять за свое) Работать с «черным ящиком» - это поверхностно, говорит. А еще говорит, что нельзя пользоваться тем, что до конца не можешь осознать. А с ML-алгоритмами да-да, такое случается.

Далее вновь «припев»:

Спасибо Бабе за интересный формат! Ведь глубокий текст, и упакован в такую креативную обертку.

И да, в самом начале статьи я говорил о противостояния между «наукой о данных» и классической статистикой. На самом деле, по большому счету, пожалуй, ведь и нет никакого противостояния. Ведь «наука о данных» вбирает в себя всю классическую статистику, обогащая ее современными методами, основанными на активном использовании вычислительных машин. Но ведь говорить о противостоянии интереснее, не правда ли?

Кстати, мы с коллегами ведем телеграм-канал #прокачайаналитику. Давайте точить аналитический скилл вместе!

0
10 комментариев
Написать комментарий...
Петр Кондратьев

Статист - это же, вроде бы, работник массовки в киноиндустрии. А специалист по статистике - это статистик, как бы уменьшительно-ласкательно это ни звучало.

Ответить
Развернуть ветку
Игорь Кузин
Автор

Петр, спасибо! Да, очень ценный комментарий! Жаль, что я не обращал внимания на это раньше. Действительно, Вы правы.

Но я не слышал (вот на практике, именно на слух), чтобы человека, который работает со статистикой, называли "статистиком". Ну вот то ли люди меня такие окружают, то ли как-то уже "статист" становится более употребимым. Похоже на историю с "сосулями". В итоге же закрепили-таки такую форму слова вроде как)

Ответить
Развернуть ветку
Татьяна Кузина

А почему регрессия - это "отстой"? Непонятно

Ответить
Развернуть ветку
Иван Криштальский

Поддержу, хороший вопрос, на самом деле.

Ответить
Развернуть ветку
Игорь Кузин
Автор

Иван, спасибо за вопрос! Линейная регрессия - это линейная функция вида kx+b. Т.е. по сути, все, что она предсказывает нам - это угол наклона k. Кроме того, данные во времени могут иметь разную значимость. Т.е. грубо говоря может быть так, что данные годовалой давности уже не помогают нам предсказывать (а даже может быть, наоборот, вредят качеству прогноза). Но линейная регрессия смешает все данные без учета временного фактора. Эти 2 момента актуальны также и для множественной линейной регрессии.

Ответить
Развернуть ветку
Al Pr

Это попытка построить прогноз на предположении, что мир вокруг статичен и неизменен. То есть "как изменится явление, если все вокруг изменятся не будет" - это главный "абсурд" метода.
Но он работает во многих случаях, и строить кластерную модель не проверив простые методы это как строить МКС не имея колёса и рычага в базе. Вопрос лишь в том, что вычислительные мощности уже позволяют в дата-саинс без включения мозга

Ответить
Развернуть ветку
Al Pr

"Извините, можно я вас перебью, сказал киллер обращаясь к двум бизнесменам"
Статья огонь, но из-за "СТАТИСТОВ." читать невозможно. В оригинале все таки статистики

Ответить
Развернуть ветку
Дмитрий Павлов

Классный разбор!🔥 Baba жжёт - задорный чувак) Вот бы весь хип-хоп был таким же культурно-научным, вместо вот этого нашего русского рэпа, разлагающего сознание подростков!🧟‍♂️

Статья, кстати, получилась такая же задорная и лёгкая, с учётом того, что тема затронута весьма непростая - автору респект!👍🏼 

Но, кажется, чего-то не хватает🤔 неплохо было бы дать ссылку на сам ролик - восполню этот пробел:
https://youtu.be/uHGlCi9jOWY

Ответить
Развернуть ветку
Игорь Кузин
Автор

Спасибо за отзыв! Ссылка есть под самым первым изображением. Но да, она какая-то не очень заметная)

Ответить
Развернуть ветку
Игорь Кузин
Автор

Из-за низкой предсказательной силы. Но вообще, Татьяна, предлагаю обсудить детально это вечером))

Ответить
Развернуть ветку
7 комментариев
Раскрывать всегда