Кто такой data scientist? Ответ в этом батле!
Всех с пятницей! Так кто же такие эти дата сайентисты? Baba Brinkman популярно объясняет, да еще и делает это в формате рэп-батла! Мы сделали вольный перевод. Смотрите, что получилось)
Привет! С вами Игорь Кузин, CEO в Smart Analytics. Не так давно мы с коллегами наткнулись на видео Бабы Бринкмэна (реальное имя Дирк Мюрэй Бринкмэн), в котором он сравнивает подходы дейта сайентиста и классического статиста. Баба вообще и известен тем, что он читает рэп на тему науки.
Дата сайентист здесь такой модный и современный, а статист – это такой дедушка с бумажной бородой в олдовом костюме, что уже само по себе отражает характер противостояния между «наукой о данных» и классической статистикой.
Итак, давайте вместе с Бабой разберемся, кто же такой data scientist и чем же принципиально подход «науки о данных» отличается от обычной статистики? Поехали!
Раунд первый
По итогам жеребьевки начинает МС слева. Дайте шума!
И дата сайентист сразу начинает с панча! Он говорит о том, что:
- «наука о данных» основана на алгоритмическом подходе, т.е. неотделима от использования вычислительных машин, по сути; в то время как классическая статистика и ее методы принципиально не завязаны на машины;
- линейная регрессия это как бы «отстой»; для тех, кто не знает что это, скажу по-простому: это типа линия тренда на графике в виде прямой (если что, вот ссылка на вики);
- предсказание – это, вероятно, центральный объект «науки о данных».
И вот на значимости предсказания давайте остановимся отдельно. Почему это так важно? Почему это, может быть, вообще самое важно в data science? Давайте разберемся!
Почему мы вообще анализируем статистику? Копаемся в данных, в срезах и метриках? Мы пытаемся понять, что эффективно, а что нет. В то, что эффективно, мы должны вкладывать больше ресурсов (обычно денег), а в то, что неэффективно, вкладывать меньше (урезать бюджет на такие сегменты). Это очень просто! Правда, есть деталь. Мы это делаем не потому, что нам очень интересно прошлое. Мы уверены в том, что в будущем будет примерно то же, что и в прошлом. Это называется «нативная модель прогнозирования», когда мы на будущие периоды экстраполируем попросту то, что было в прошлом. Обратите внимание: мы тоже прогнозируем! Просто вот так вот, по-простому, «нативно».
Но реальность в том, что в будущем может вовсе не быть так, как в прошлом! Для этого нам-то и нужно качественное прогнозирование. И для хорошего прогноза без ИИ в том или ином виде не обойтись.
Вангую: в будущем не будет систем аналитики в текущем виде, когда эти системы, по сути, являются системами статистики и визуализации. В будущем главным продуктом систем аналитики будут прогнозные данные, которые мы как раз-то на самом деле и хотим получить для оптимизации (часто даже сами того не осознавая).
Но вернемся к видео. Что же там дальше?
Статист наносит ответный удар! Он говорит о том, что дата сайентисты используют алгоритмы, работа которых сама по себе мало предсказуема и объяснима. Т.е. данные, по сути, закачиваются в некую «шайтан-машину», и на выходе получается некий результат. Что внутри этого «черного ящика», как именно он сработал, - до конца не известно. И как можно вообще опираться на такое «нечто», как понять, корректны ли выводы или нет?
Дайта сайентист отвечает, что может это и «черный ящик», но он дает точные ответы. Причем применим в абсолютно любых сферах жизни. И да, он не считает, что коробка «черная», она скорее «прозрачная», т.е. мы же сами и создаем те алгоритмы, которые будут отрабатывать в этой «коробке».
Тут статист подкалывает дата сайентиста. Типа, «ага, ну да, вы это все делаете с помощью прослеживаемой математики». Да, и действительно, математика «черного ящика» не всегда прослеживаема. Взять хотя бы известный метод кластеризации k-means. Ну он же, зараза, постоянно выдает разные данные на одном и том же массиве данных! Да, на самом деле, есть целая масса улучшенных вариаций k-means (например, «k-means++»), да и вовсе других методов кластеризации. Однако это вот как раз тот самый случай «непрослеживаемой математики».
Раунд второй
МС справа, жги!
Да, есть такая проблема! Сейчас уже практически каждый может взять какую-то ML-библиотеку на python и сгенерить нечто. И без какого-то базового понимания принципов статистики это действительно похоже на некую форму невежества...
Какооой панч-лайн! Ну вот, коллеги нас и раскусили)) Спасибо Бабе за игру слов «data model» (модель данных) и «date a model» (встречаться с моделью).
Да и действительно, может и не так важно как именно это работает, если качество прогноза высокое? И может и не стоит бояться «черного ящика»? Ведь сама природа так же малообъяснима, как этот «черный ящик»?
Шум! Шум! Шум!
Раунд третий
Ииии это панч! Да, в «науке о данных» есть немало нерешенных вопросов, но ведь она ох-как активно развивается! И с таким «дедушкиным» подходом никогда не достичь прорыва.
Статист опять за свое) Работать с «черным ящиком» - это поверхностно, говорит. А еще говорит, что нельзя пользоваться тем, что до конца не можешь осознать. А с ML-алгоритмами да-да, такое случается.
Далее вновь «припев»:
Спасибо Бабе за интересный формат! Ведь глубокий текст, и упакован в такую креативную обертку.
И да, в самом начале статьи я говорил о противостояния между «наукой о данных» и классической статистикой. На самом деле, по большому счету, пожалуй, ведь и нет никакого противостояния. Ведь «наука о данных» вбирает в себя всю классическую статистику, обогащая ее современными методами, основанными на активном использовании вычислительных машин. Но ведь говорить о противостоянии интереснее, не правда ли?
Кстати, мы с коллегами ведем телеграм-канал #прокачайаналитику. Давайте точить аналитический скилл вместе!
«Никакой возни с синтаксисом — только промпты, итерации и вайб».
Если всегда хотели свободный график, работать из дома и чтобы у вас всё было в шоколаде — вы по адресу. Мы разобрали данный бизнес по шагам и приоткрыли ширму сладкой мини-империи.
Криптовалютный рынок регулярно порождает новые тренды, среди которых особое место занимают мемкоины — цифровые монеты, созданные в качестве шутки или для привлечения внимания к значимым событиям и известным личностям.
Петицию подали на фоне спада продаж в стране — на 76% в феврале 2025 года.
Вчерашнее утро началось с громких заголовков. Сегодня разберемся, что реально произошло и где ошиблись журналисты.
Можно ли теперь забрать иностранный бренд себе и где встать в очередь за Apple, если да — смотрим, чем на практике пригодится эта история нашим предпринимателям.
Например, открыть доступ к уведомлениям и функции, позволяющей наушникам переключаться между устройствами.
В декабре 2023 года МТС решила бросить вызов YouTube и TikTok и запустила амбициозный видеосервис NUUM, вложив в него около 6 миллиардов рублей. Новый проект обещал объединить в себе лучшее из двух миров: длинные видеоролики, короткие вертикальные клипы и стримы для молодежной аудитории. Но спустя чуть больше года, несмотря на громкие обещания и ма…
В интернет-маркетинг я пришел в 1999 году, когда мне было 15 лет. Знакомые моего отца продавали морепродукты с Дальнего Востока, и они хотели, как это модно сейчас звучит, «выйти на западные рынки». Понятно, что никто из этих сорокалетних товарищей не понимал, как устроен интернет, но у них был я — профессиональный пользователь, который за два года…
Американские гиганты полупроводников переживают революцию в управлении: теперь “большую четверку” возглавляют руководители азиатского происхождения. И на фоне молчаливого одобрения со стороны Уолл-стрит возникает вопрос: готова ли индустрия к эпохе “азиатской династии”, где инновации и результаты важнее национальности?
Статист - это же, вроде бы, работник массовки в киноиндустрии. А специалист по статистике - это статистик, как бы уменьшительно-ласкательно это ни звучало.
Петр, спасибо! Да, очень ценный комментарий! Жаль, что я не обращал внимания на это раньше. Действительно, Вы правы.
Но я не слышал (вот на практике, именно на слух), чтобы человека, который работает со статистикой, называли "статистиком". Ну вот то ли люди меня такие окружают, то ли как-то уже "статист" становится более употребимым. Похоже на историю с "сосулями". В итоге же закрепили-таки такую форму слова вроде как)
А почему регрессия - это "отстой"? Непонятно
Поддержу, хороший вопрос, на самом деле.
Это попытка построить прогноз на предположении, что мир вокруг статичен и неизменен. То есть "как изменится явление, если все вокруг изменятся не будет" - это главный "абсурд" метода.
Но он работает во многих случаях, и строить кластерную модель не проверив простые методы это как строить МКС не имея колёса и рычага в базе. Вопрос лишь в том, что вычислительные мощности уже позволяют в дата-саинс без включения мозга
"Извините, можно я вас перебью, сказал киллер обращаясь к двум бизнесменам"
Статья огонь, но из-за "СТАТИСТОВ." читать невозможно. В оригинале все таки статистики
Классный разбор!🔥 Baba жжёт - задорный чувак) Вот бы весь хип-хоп был таким же культурно-научным, вместо вот этого нашего русского рэпа, разлагающего сознание подростков!🧟♂️
Статья, кстати, получилась такая же задорная и лёгкая, с учётом того, что тема затронута весьма непростая - автору респект!👍🏼
Но, кажется, чего-то не хватает🤔 неплохо было бы дать ссылку на сам ролик - восполню этот пробел:
https://youtu.be/uHGlCi9jOWY