Кто такой data scientist? Ответ в этом батле!

Всех с пятницей! Так кто же такие эти дата сайентисты? Baba Brinkman популярно объясняет, да еще и делает это в формате рэп-батла! Мы сделали вольный перевод. Смотрите, что получилось)

Видео Data scientist Vs statistician by Baba Brinkman по <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DuHGlCi9jOWY&postId=146443" rel="nofollow noreferrer noopener" target="_blank">ссылке</a>
Видео Data scientist Vs statistician by Baba Brinkman по ссылке

Привет! С вами Игорь Кузин, CEO в Smart Analytics. Не так давно мы с коллегами наткнулись на видео Бабы Бринкмэна (реальное имя Дирк Мюрэй Бринкмэн), в котором он сравнивает подходы дейта сайентиста и классического статиста. Баба вообще и известен тем, что он читает рэп на тему науки.

Дата сайентист здесь такой модный и современный, а статист – это такой дедушка с бумажной бородой в олдовом костюме, что уже само по себе отражает характер противостояния между «наукой о данных» и классической статистикой.

Итак, давайте вместе с Бабой разберемся, кто же такой data scientist и чем же принципиально подход «науки о данных» отличается от обычной статистики? Поехали!

Раунд первый

По итогам жеребьевки начинает МС слева. Дайте шума!

Кто такой data scientist? Ответ в этом батле!

И дата сайентист сразу начинает с панча! Он говорит о том, что:

  • «наука о данных» основана на алгоритмическом подходе, т.е. неотделима от использования вычислительных машин, по сути; в то время как классическая статистика и ее методы принципиально не завязаны на машины;
  • линейная регрессия это как бы «отстой»; для тех, кто не знает что это, скажу по-простому: это типа линия тренда на графике в виде прямой (если что, вот ссылка на вики);
  • предсказание – это, вероятно, центральный объект «науки о данных».

И вот на значимости предсказания давайте остановимся отдельно. Почему это так важно? Почему это, может быть, вообще самое важно в data science? Давайте разберемся!

Почему мы вообще анализируем статистику? Копаемся в данных, в срезах и метриках? Мы пытаемся понять, что эффективно, а что нет. В то, что эффективно, мы должны вкладывать больше ресурсов (обычно денег), а в то, что неэффективно, вкладывать меньше (урезать бюджет на такие сегменты). Это очень просто! Правда, есть деталь. Мы это делаем не потому, что нам очень интересно прошлое. Мы уверены в том, что в будущем будет примерно то же, что и в прошлом. Это называется «нативная модель прогнозирования», когда мы на будущие периоды экстраполируем попросту то, что было в прошлом. Обратите внимание: мы тоже прогнозируем! Просто вот так вот, по-простому, «нативно».

Но реальность в том, что в будущем может вовсе не быть так, как в прошлом! Для этого нам-то и нужно качественное прогнозирование. И для хорошего прогноза без ИИ в том или ином виде не обойтись.

Вангую: в будущем не будет систем аналитики в текущем виде, когда эти системы, по сути, являются системами статистики и визуализации. В будущем главным продуктом систем аналитики будут прогнозные данные, которые мы как раз-то на самом деле и хотим получить для оптимизации (часто даже сами того не осознавая).

Но вернемся к видео. Что же там дальше?

Кто такой data scientist? Ответ в этом батле!

Статист наносит ответный удар! Он говорит о том, что дата сайентисты используют алгоритмы, работа которых сама по себе мало предсказуема и объяснима. Т.е. данные, по сути, закачиваются в некую «шайтан-машину», и на выходе получается некий результат. Что внутри этого «черного ящика», как именно он сработал, - до конца не известно. И как можно вообще опираться на такое «нечто», как понять, корректны ли выводы или нет?

Кто такой data scientist? Ответ в этом батле!

Дайта сайентист отвечает, что может это и «черный ящик», но он дает точные ответы. Причем применим в абсолютно любых сферах жизни. И да, он не считает, что коробка «черная», она скорее «прозрачная», т.е. мы же сами и создаем те алгоритмы, которые будут отрабатывать в этой «коробке».

Кто такой data scientist? Ответ в этом батле!

Тут статист подкалывает дата сайентиста. Типа, «ага, ну да, вы это все делаете с помощью прослеживаемой математики». Да, и действительно, математика «черного ящика» не всегда прослеживаема. Взять хотя бы известный метод кластеризации k-means. Ну он же, зараза, постоянно выдает разные данные на одном и том же массиве данных! Да, на самом деле, есть целая масса улучшенных вариаций k-means (например, «k-means++»), да и вовсе других методов кластеризации. Однако это вот как раз тот самый случай «непрослеживаемой математики».

Раунд второй

МС справа, жги!

Кто такой data scientist? Ответ в этом батле!

Да, есть такая проблема! Сейчас уже практически каждый может взять какую-то ML-библиотеку на python и сгенерить нечто. И без какого-то базового понимания принципов статистики это действительно похоже на некую форму невежества...

Кто такой data scientist? Ответ в этом батле!

Какооой панч-лайн! Ну вот, коллеги нас и раскусили)) Спасибо Бабе за игру слов «data model» (модель данных) и «date a model» (встречаться с моделью).

Кто такой data scientist? Ответ в этом батле!

Да и действительно, может и не так важно как именно это работает, если качество прогноза высокое? И может и не стоит бояться «черного ящика»? Ведь сама природа так же малообъяснима, как этот «черный ящик»?

Шум! Шум! Шум!

Раунд третий

Кто такой data scientist? Ответ в этом батле!

Ииии это панч! Да, в «науке о данных» есть немало нерешенных вопросов, но ведь она ох-как активно развивается! И с таким «дедушкиным» подходом никогда не достичь прорыва.

Кто такой data scientist? Ответ в этом батле!
Кто такой data scientist? Ответ в этом батле!

Статист опять за свое) Работать с «черным ящиком» - это поверхностно, говорит. А еще говорит, что нельзя пользоваться тем, что до конца не можешь осознать. А с ML-алгоритмами да-да, такое случается.

Далее вновь «припев»:

Кто такой data scientist? Ответ в этом батле!

Спасибо Бабе за интересный формат! Ведь глубокий текст, и упакован в такую креативную обертку.

И да, в самом начале статьи я говорил о противостояния между «наукой о данных» и классической статистикой. На самом деле, по большому счету, пожалуй, ведь и нет никакого противостояния. Ведь «наука о данных» вбирает в себя всю классическую статистику, обогащая ее современными методами, основанными на активном использовании вычислительных машин. Но ведь говорить о противостоянии интереснее, не правда ли?

Кстати, мы с коллегами ведем телеграм-канал #прокачайаналитику. Давайте точить аналитический скилл вместе!

1717
10 комментариев

Статист - это же, вроде бы, работник массовки в киноиндустрии. А специалист по статистике - это статистик, как бы уменьшительно-ласкательно это ни звучало.

5

Петр, спасибо! Да, очень ценный комментарий! Жаль, что я не обращал внимания на это раньше. Действительно, Вы правы.

Но я не слышал (вот на практике, именно на слух), чтобы человека, который работает со статистикой, называли "статистиком". Ну вот то ли люди меня такие окружают, то ли как-то уже "статист" становится более употребимым. Похоже на историю с "сосулями". В итоге же закрепили-таки такую форму слова вроде как)

2

А почему регрессия - это "отстой"? Непонятно

2

Поддержу, хороший вопрос, на самом деле.

3

Это попытка построить прогноз на предположении, что мир вокруг статичен и неизменен. То есть "как изменится явление, если все вокруг изменятся не будет" - это главный "абсурд" метода.
Но он работает во многих случаях, и строить кластерную модель не проверив простые методы это как строить МКС не имея колёса и рычага в базе. Вопрос лишь в том, что вычислительные мощности уже позволяют в дата-саинс без включения мозга

2

"Извините, можно я вас перебью, сказал киллер обращаясь к двум бизнесменам"
Статья огонь, но из-за "СТАТИСТОВ." читать невозможно. В оригинале все таки статистики

3

Классный разбор!🔥 Baba жжёт - задорный чувак) Вот бы весь хип-хоп был таким же культурно-научным, вместо вот этого нашего русского рэпа, разлагающего сознание подростков!🧟‍♂️

Статья, кстати, получилась такая же задорная и лёгкая, с учётом того, что тема затронута весьма непростая - автору респект!👍🏼 

Но, кажется, чего-то не хватает🤔 неплохо было бы дать ссылку на сам ролик - восполню этот пробел:
https://youtu.be/uHGlCi9jOWY

2