{"id":8525,"title":"\u0410\u043a\u0446\u0438\u044f \u043e\u0442 \u0431\u0430\u043d\u043a\u0430 \u0441 \u043e\u043e\u043e\u0447\u0435\u043d\u044c \u0434\u043b\u0438\u043d\u043d\u043e\u0439 \u0440\u0430\u0441\u0441\u0440\u043e\u0447\u043a\u043e\u0439","url":"\/redirect?component=advertising&id=8525&url=https:\/\/vc.ru\/promo\/314626-korotko-vyigrat-100-tysyach-rubley-na-pokupki-k-novomu-godu&placeBit=1&hash=452c4539de3180a40833ab562f6d46ac6a723a1c475a25d3a1dc82d21cace4b8","isPaidAndBannersEnabled":false}

Кто такой data scientist? Ответ в этом батле!

Всех с пятницей! Так кто же такие эти дата сайентисты? Baba Brinkman популярно объясняет, да еще и делает это в формате рэп-батла! Мы сделали вольный перевод. Смотрите, что получилось)

Видео Data scientist Vs statistician by Baba Brinkman по ссылке

Привет! С вами Игорь Кузин, CEO в Smart Analytics. Не так давно мы с коллегами наткнулись на видео Бабы Бринкмэна (реальное имя Дирк Мюрэй Бринкмэн), в котором он сравнивает подходы дейта сайентиста и классического статиста. Баба вообще и известен тем, что он читает рэп на тему науки.

Дата сайентист здесь такой модный и современный, а статист – это такой дедушка с бумажной бородой в олдовом костюме, что уже само по себе отражает характер противостояния между «наукой о данных» и классической статистикой.

Итак, давайте вместе с Бабой разберемся, кто же такой data scientist и чем же принципиально подход «науки о данных» отличается от обычной статистики? Поехали!

Раунд первый

По итогам жеребьевки начинает МС слева. Дайте шума!

И дата сайентист сразу начинает с панча! Он говорит о том, что:

  • «наука о данных» основана на алгоритмическом подходе, т.е. неотделима от использования вычислительных машин, по сути; в то время как классическая статистика и ее методы принципиально не завязаны на машины;
  • линейная регрессия это как бы «отстой»; для тех, кто не знает что это, скажу по-простому: это типа линия тренда на графике в виде прямой (если что, вот ссылка на вики);
  • предсказание – это, вероятно, центральный объект «науки о данных».

И вот на значимости предсказания давайте остановимся отдельно. Почему это так важно? Почему это, может быть, вообще самое важно в data science? Давайте разберемся!

Почему мы вообще анализируем статистику? Копаемся в данных, в срезах и метриках? Мы пытаемся понять, что эффективно, а что нет. В то, что эффективно, мы должны вкладывать больше ресурсов (обычно денег), а в то, что неэффективно, вкладывать меньше (урезать бюджет на такие сегменты). Это очень просто! Правда, есть деталь. Мы это делаем не потому, что нам очень интересно прошлое. Мы уверены в том, что в будущем будет примерно то же, что и в прошлом. Это называется «нативная модель прогнозирования», когда мы на будущие периоды экстраполируем попросту то, что было в прошлом. Обратите внимание: мы тоже прогнозируем! Просто вот так вот, по-простому, «нативно».

Но реальность в том, что в будущем может вовсе не быть так, как в прошлом! Для этого нам-то и нужно качественное прогнозирование. И для хорошего прогноза без ИИ в том или ином виде не обойтись.

Вангую: в будущем не будет систем аналитики в текущем виде, когда эти системы, по сути, являются системами статистики и визуализации. В будущем главным продуктом систем аналитики будут прогнозные данные, которые мы как раз-то на самом деле и хотим получить для оптимизации (часто даже сами того не осознавая).

Но вернемся к видео. Что же там дальше?

Статист наносит ответный удар! Он говорит о том, что дата сайентисты используют алгоритмы, работа которых сама по себе мало предсказуема и объяснима. Т.е. данные, по сути, закачиваются в некую «шайтан-машину», и на выходе получается некий результат. Что внутри этого «черного ящика», как именно он сработал, - до конца не известно. И как можно вообще опираться на такое «нечто», как понять, корректны ли выводы или нет?

Дайта сайентист отвечает, что может это и «черный ящик», но он дает точные ответы. Причем применим в абсолютно любых сферах жизни. И да, он не считает, что коробка «черная», она скорее «прозрачная», т.е. мы же сами и создаем те алгоритмы, которые будут отрабатывать в этой «коробке».

Тут статист подкалывает дата сайентиста. Типа, «ага, ну да, вы это все делаете с помощью прослеживаемой математики». Да, и действительно, математика «черного ящика» не всегда прослеживаема. Взять хотя бы известный метод кластеризации k-means. Ну он же, зараза, постоянно выдает разные данные на одном и том же массиве данных! Да, на самом деле, есть целая масса улучшенных вариаций k-means (например, «k-means++»), да и вовсе других методов кластеризации. Однако это вот как раз тот самый случай «непрослеживаемой математики».

Раунд второй

МС справа, жги!

Да, есть такая проблема! Сейчас уже практически каждый может взять какую-то ML-библиотеку на python и сгенерить нечто. И без какого-то базового понимания принципов статистики это действительно похоже на некую форму невежества...

Какооой панч-лайн! Ну вот, коллеги нас и раскусили)) Спасибо Бабе за игру слов «data model» (модель данных) и «date a model» (встречаться с моделью).

Да и действительно, может и не так важно как именно это работает, если качество прогноза высокое? И может и не стоит бояться «черного ящика»? Ведь сама природа так же малообъяснима, как этот «черный ящик»?

Шум! Шум! Шум!

Раунд третий

Ииии это панч! Да, в «науке о данных» есть немало нерешенных вопросов, но ведь она ох-как активно развивается! И с таким «дедушкиным» подходом никогда не достичь прорыва.

Статист опять за свое) Работать с «черным ящиком» - это поверхностно, говорит. А еще говорит, что нельзя пользоваться тем, что до конца не можешь осознать. А с ML-алгоритмами да-да, такое случается.

Далее вновь «припев»:

Спасибо Бабе за интересный формат! Ведь глубокий текст, и упакован в такую креативную обертку.

И да, в самом начале статьи я говорил о противостояния между «наукой о данных» и классической статистикой. На самом деле, по большому счету, пожалуй, ведь и нет никакого противостояния. Ведь «наука о данных» вбирает в себя всю классическую статистику, обогащая ее современными методами, основанными на активном использовании вычислительных машин. Но ведь говорить о противостоянии интереснее, не правда ли?

Кстати, мы с коллегами ведем телеграм-канал #прокачайаналитику. Давайте точить аналитический скилл вместе!

0
10 комментариев
Популярные
По порядку
Написать комментарий...

Статист - это же, вроде бы, работник массовки в киноиндустрии. А специалист по статистике - это статистик, как бы уменьшительно-ласкательно это ни звучало.

5

Петр, спасибо! Да, очень ценный комментарий! Жаль, что я не обращал внимания на это раньше. Действительно, Вы правы.

Но я не слышал (вот на практике, именно на слух), чтобы человека, который работает со статистикой, называли "статистиком". Ну вот то ли люди меня такие окружают, то ли как-то уже "статист" становится более употребимым. Похоже на историю с "сосулями". В итоге же закрепили-таки такую форму слова вроде как)

2

А почему регрессия - это "отстой"? Непонятно

2

Поддержу, хороший вопрос, на самом деле.

3

Иван, спасибо за вопрос! Линейная регрессия - это линейная функция вида kx+b. Т.е. по сути, все, что она предсказывает нам - это угол наклона k. Кроме того, данные во времени могут иметь разную значимость. Т.е. грубо говоря может быть так, что данные годовалой давности уже не помогают нам предсказывать (а даже может быть, наоборот, вредят качеству прогноза). Но линейная регрессия смешает все данные без учета временного фактора. Эти 2 момента актуальны также и для множественной линейной регрессии.

3

Это попытка построить прогноз на предположении, что мир вокруг статичен и неизменен. То есть "как изменится явление, если все вокруг изменятся не будет" - это главный "абсурд" метода.
Но он работает во многих случаях, и строить кластерную модель не проверив простые методы это как строить МКС не имея колёса и рычага в базе. Вопрос лишь в том, что вычислительные мощности уже позволяют в дата-саинс без включения мозга

2

"Извините, можно я вас перебью, сказал киллер обращаясь к двум бизнесменам"
Статья огонь, но из-за "СТАТИСТОВ." читать невозможно. В оригинале все таки статистики

3

Классный разбор!🔥 Baba жжёт - задорный чувак) Вот бы весь хип-хоп был таким же культурно-научным, вместо вот этого нашего русского рэпа, разлагающего сознание подростков!🧟‍♂️

Статья, кстати, получилась такая же задорная и лёгкая, с учётом того, что тема затронута весьма непростая - автору респект!👍🏼 

Но, кажется, чего-то не хватает🤔 неплохо было бы дать ссылку на сам ролик - восполню этот пробел:
https://youtu.be/uHGlCi9jOWY

2

Спасибо за отзыв! Ссылка есть под самым первым изображением. Но да, она какая-то не очень заметная)

1

Из-за низкой предсказательной силы. Но вообще, Татьяна, предлагаю обсудить детально это вечером))

2
Читать все 10 комментариев
Что юридически создают эксперты — маркетологи, коучи, спецы по продажам, и как им защитить авторские права на продукты

Рабочее решение для экспертов по защите своих продуктов. Рассказываем на основе кейсов эксперта по продажам и ее продуктов. Концепцию может взять на вооружение любой эксперт, не только специалист по продажам.

Что такое digital nomad виза и как ее получить?

Одним из плюсов жизни цифрового кочевника (digital nomad) является возможность попасть в страны, закрытые для всех туристов во время пандемии. Ещё digital nomad виза, которую иногда также называют визой удаленного работника, дает право проживать и работать в определенной стране на протяжении большого периода времени. В статье мы расскажем о ее…

Бизнесменам разрешат перевести личные фонды в российские офшоры

Согласно проекту поправок Минэкономразвития РФ к закону "О международных компаниях и международных фондах" министерство планирует разрешить бизнесменам регистрировать в так называемых русских офшорах - специальных административных районах (САР) в Калининграде и Владивостоке - личные фонды и трасты.

Омикрон проверит работоспособность стратегии покупки акций на спадах

Появление варианта омикрон позволит вновь проверить работоспособность стратегии покупки на спадах, которая в этом году пока сбоев не давала.

Невидимый убийца: как воздух в вашем офисе делает вас глупее

Важное исследование, которое должно заставить все компании пересмотреть свои офисы.

«Она похожа на соль — улучшит любое блюдо, если не переборщить»: как инженер-пианист создал гитарную педаль Big Muff Статьи редакции

Майк Мэтьюс бросил работу в IBM, чтобы дарить гитарам звучание, как у Хендрикса и The Rolling Stones, и придумал «золотой стандарт» педалей с искажением: её в своих записях использовали Pink Floyd, The White Stripes и Depeche Mode.

Майк Мэтьюс Vintage Guitar
Сервис «Кухня на районе» отменил бесплатную доставку еды Статьи редакции

Пока доставка стоит 1 рубль, но в ближайшее время цена будет динамической — в зависимости от погоды и нагрузки курьеров.

Российско-швейцарская WayRay представила свой первый прототип электромобиля с AR-остеклением Статьи редакции

За четыре года стартап хочет подготовиться к серийному производству и получить разрешения на движение по дорогам общего пользования.

WayRay Holograktor WayRay
Дизайнер Виталий Яковлев. Как я пытался вернуть деньги за несостоявшееся обучение

Как начиналось.

Мысли создателя FastAPI Себастьяна Рамиреса из интервью Evrone

Себастьян Рамирез — энтузиаст open source, создатель таких популярных инструментов, как FastAPI, Typer и SQLModel. В интервью он поделился мнением о собственных проектах, образовании для разработчиков и собственной популярности в Twitter. Полный текст доступен по ссылке.

null