{"id":10776,"title":"\u0411\u043b\u0430\u0433\u043e\u0434\u0430\u0440\u044f \u044d\u0442\u043e\u043c\u0443 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u0443 \u0432 \u043e\u043a\u0435\u0430\u043d \u043f\u043e\u043f\u0430\u0434\u0451\u0442 \u043c\u0435\u043d\u044c\u0448\u0435 \u043f\u043b\u0430\u0441\u0442\u0438\u043a\u0430","url":"\/redirect?component=advertising&id=10776&url=https:\/\/vc.ru\/acer_russia\/347915-acer-vypustila-pervyy-noutbuk-iz-pererabotannogo-plastika&placeBit=1&hash=368c351f012741e124bb4bc6c0b9b05d5e0f9033fab83ea5e301424877f73936","isPaidAndBannersEnabled":false}

Кто такой data scientist? Ответ в этом батле!

Всех с пятницей! Так кто же такие эти дата сайентисты? Baba Brinkman популярно объясняет, да еще и делает это в формате рэп-батла! Мы сделали вольный перевод. Смотрите, что получилось)

Видео Data scientist Vs statistician by Baba Brinkman по ссылке

Привет! С вами Игорь Кузин, CEO в Smart Analytics. Не так давно мы с коллегами наткнулись на видео Бабы Бринкмэна (реальное имя Дирк Мюрэй Бринкмэн), в котором он сравнивает подходы дейта сайентиста и классического статиста. Баба вообще и известен тем, что он читает рэп на тему науки.

Дата сайентист здесь такой модный и современный, а статист – это такой дедушка с бумажной бородой в олдовом костюме, что уже само по себе отражает характер противостояния между «наукой о данных» и классической статистикой.

Итак, давайте вместе с Бабой разберемся, кто же такой data scientist и чем же принципиально подход «науки о данных» отличается от обычной статистики? Поехали!

Раунд первый

По итогам жеребьевки начинает МС слева. Дайте шума!

И дата сайентист сразу начинает с панча! Он говорит о том, что:

  • «наука о данных» основана на алгоритмическом подходе, т.е. неотделима от использования вычислительных машин, по сути; в то время как классическая статистика и ее методы принципиально не завязаны на машины;
  • линейная регрессия это как бы «отстой»; для тех, кто не знает что это, скажу по-простому: это типа линия тренда на графике в виде прямой (если что, вот ссылка на вики);
  • предсказание – это, вероятно, центральный объект «науки о данных».

И вот на значимости предсказания давайте остановимся отдельно. Почему это так важно? Почему это, может быть, вообще самое важно в data science? Давайте разберемся!

Почему мы вообще анализируем статистику? Копаемся в данных, в срезах и метриках? Мы пытаемся понять, что эффективно, а что нет. В то, что эффективно, мы должны вкладывать больше ресурсов (обычно денег), а в то, что неэффективно, вкладывать меньше (урезать бюджет на такие сегменты). Это очень просто! Правда, есть деталь. Мы это делаем не потому, что нам очень интересно прошлое. Мы уверены в том, что в будущем будет примерно то же, что и в прошлом. Это называется «нативная модель прогнозирования», когда мы на будущие периоды экстраполируем попросту то, что было в прошлом. Обратите внимание: мы тоже прогнозируем! Просто вот так вот, по-простому, «нативно».

Но реальность в том, что в будущем может вовсе не быть так, как в прошлом! Для этого нам-то и нужно качественное прогнозирование. И для хорошего прогноза без ИИ в том или ином виде не обойтись.

Вангую: в будущем не будет систем аналитики в текущем виде, когда эти системы, по сути, являются системами статистики и визуализации. В будущем главным продуктом систем аналитики будут прогнозные данные, которые мы как раз-то на самом деле и хотим получить для оптимизации (часто даже сами того не осознавая).

Но вернемся к видео. Что же там дальше?

Статист наносит ответный удар! Он говорит о том, что дата сайентисты используют алгоритмы, работа которых сама по себе мало предсказуема и объяснима. Т.е. данные, по сути, закачиваются в некую «шайтан-машину», и на выходе получается некий результат. Что внутри этого «черного ящика», как именно он сработал, - до конца не известно. И как можно вообще опираться на такое «нечто», как понять, корректны ли выводы или нет?

Дайта сайентист отвечает, что может это и «черный ящик», но он дает точные ответы. Причем применим в абсолютно любых сферах жизни. И да, он не считает, что коробка «черная», она скорее «прозрачная», т.е. мы же сами и создаем те алгоритмы, которые будут отрабатывать в этой «коробке».

Тут статист подкалывает дата сайентиста. Типа, «ага, ну да, вы это все делаете с помощью прослеживаемой математики». Да, и действительно, математика «черного ящика» не всегда прослеживаема. Взять хотя бы известный метод кластеризации k-means. Ну он же, зараза, постоянно выдает разные данные на одном и том же массиве данных! Да, на самом деле, есть целая масса улучшенных вариаций k-means (например, «k-means++»), да и вовсе других методов кластеризации. Однако это вот как раз тот самый случай «непрослеживаемой математики».

Раунд второй

МС справа, жги!

Да, есть такая проблема! Сейчас уже практически каждый может взять какую-то ML-библиотеку на python и сгенерить нечто. И без какого-то базового понимания принципов статистики это действительно похоже на некую форму невежества...

Какооой панч-лайн! Ну вот, коллеги нас и раскусили)) Спасибо Бабе за игру слов «data model» (модель данных) и «date a model» (встречаться с моделью).

Да и действительно, может и не так важно как именно это работает, если качество прогноза высокое? И может и не стоит бояться «черного ящика»? Ведь сама природа так же малообъяснима, как этот «черный ящик»?

Шум! Шум! Шум!

Раунд третий

Ииии это панч! Да, в «науке о данных» есть немало нерешенных вопросов, но ведь она ох-как активно развивается! И с таким «дедушкиным» подходом никогда не достичь прорыва.

Статист опять за свое) Работать с «черным ящиком» - это поверхностно, говорит. А еще говорит, что нельзя пользоваться тем, что до конца не можешь осознать. А с ML-алгоритмами да-да, такое случается.

Далее вновь «припев»:

Спасибо Бабе за интересный формат! Ведь глубокий текст, и упакован в такую креативную обертку.

И да, в самом начале статьи я говорил о противостояния между «наукой о данных» и классической статистикой. На самом деле, по большому счету, пожалуй, ведь и нет никакого противостояния. Ведь «наука о данных» вбирает в себя всю классическую статистику, обогащая ее современными методами, основанными на активном использовании вычислительных машин. Но ведь говорить о противостоянии интереснее, не правда ли?

Кстати, мы с коллегами ведем телеграм-канал #прокачайаналитику. Давайте точить аналитический скилл вместе!

0
10 комментариев
Популярные
По порядку
Написать комментарий...
Петр Кондратьев

Статист - это же, вроде бы, работник массовки в киноиндустрии. А специалист по статистике - это статистик, как бы уменьшительно-ласкательно это ни звучало.

Ответить
5
Развернуть ветку
Игорь Кузин

Петр, спасибо! Да, очень ценный комментарий! Жаль, что я не обращал внимания на это раньше. Действительно, Вы правы.

Но я не слышал (вот на практике, именно на слух), чтобы человека, который работает со статистикой, называли "статистиком". Ну вот то ли люди меня такие окружают, то ли как-то уже "статист" становится более употребимым. Похоже на историю с "сосулями". В итоге же закрепили-таки такую форму слова вроде как)

Ответить
2
Развернуть ветку
Татьяна Кузина

А почему регрессия - это "отстой"? Непонятно

Ответить
2
Развернуть ветку
Иван Криштальский

Поддержу, хороший вопрос, на самом деле.

Ответить
3
Развернуть ветку
Игорь Кузин

Иван, спасибо за вопрос! Линейная регрессия - это линейная функция вида kx+b. Т.е. по сути, все, что она предсказывает нам - это угол наклона k. Кроме того, данные во времени могут иметь разную значимость. Т.е. грубо говоря может быть так, что данные годовалой давности уже не помогают нам предсказывать (а даже может быть, наоборот, вредят качеству прогноза). Но линейная регрессия смешает все данные без учета временного фактора. Эти 2 момента актуальны также и для множественной линейной регрессии.

Ответить
3
Развернуть ветку
Al Pr

Это попытка построить прогноз на предположении, что мир вокруг статичен и неизменен. То есть "как изменится явление, если все вокруг изменятся не будет" - это главный "абсурд" метода.
Но он работает во многих случаях, и строить кластерную модель не проверив простые методы это как строить МКС не имея колёса и рычага в базе. Вопрос лишь в том, что вычислительные мощности уже позволяют в дата-саинс без включения мозга

Ответить
2
Развернуть ветку
Al Pr

"Извините, можно я вас перебью, сказал киллер обращаясь к двум бизнесменам"
Статья огонь, но из-за "СТАТИСТОВ." читать невозможно. В оригинале все таки статистики

Ответить
3
Развернуть ветку
Дмитрий Павлов

Классный разбор!🔥 Baba жжёт - задорный чувак) Вот бы весь хип-хоп был таким же культурно-научным, вместо вот этого нашего русского рэпа, разлагающего сознание подростков!🧟‍♂️

Статья, кстати, получилась такая же задорная и лёгкая, с учётом того, что тема затронута весьма непростая - автору респект!👍🏼 

Но, кажется, чего-то не хватает🤔 неплохо было бы дать ссылку на сам ролик - восполню этот пробел:
https://youtu.be/uHGlCi9jOWY

Ответить
2
Развернуть ветку
Игорь Кузин

Спасибо за отзыв! Ссылка есть под самым первым изображением. Но да, она какая-то не очень заметная)

Ответить
1
Развернуть ветку
Игорь Кузин

Из-за низкой предсказательной силы. Но вообще, Татьяна, предлагаю обсудить детально это вечером))

Ответить
2
Развернуть ветку
Читать все 10 комментариев
Проблема с внешним диском Seagate в onlinetrade.ru

28 декабря я купил в магазине onlinetrade.ru внешний жёсткий диск Seagate Backup Plus Hub 8Tb. Приехал домой, распечатал коробку подключил к компьютеру.

Как заказать товар для маркетплейсов из Китая и заработать
Два новых продукта в бете, кастомное хранилище и дешевый CDN

Дайджест продуктовых апдейтов, которые могут вас заинтересовать.

Как мы сделали интерактивный курс о том, чему нельзя научить в онлайне

Цифровые технологии сегодня всё чаще смешиваются с физическими объектами. Отсюда возникают примеры активностей в формате «фиджитал» (от англ. physical + digital). В статье мы рассказываем о том, как использовали такой подход в корпоративном обучении.

Сказ о том, как брокер Тиньков акции в счет налогов без согласия клиента продавал

Итак, начну свою историю с того, что с данным брокером я уже на протяжении 3-х лет, и в принципе, не считая пары незначительных косяков, нареканий у меня к нему не было, до начала 2022 года...

Ничего не понятно, ничего не случилось: что Центробанк предложил делать с криптовалютами в России Статьи редакции

Если идеи регулятора примут, скорее всего, для физлиц ничего не изменится, но вести криптобизнес в стране будет сложно.

Часовая запись пресс-конференции Центробанка, на которой представили доклад
Поиск страны для иммиграции

Всем привет, хочу поделиться своими изысканиями, как меня бомбануло и как запилил поиск страны по необходимым параметрам для иммиграции.

Rio innovation week – выступление АИМ, собственная криптовалюта для Рио-де-Жанейро и международное сотрудничество
«Делимобиль» добавил Tesla Model 3 в свой парк в Москве Статьи редакции

Аренда стоит от 24 рублей за минуту.

Как бесплатно набрать 1600 подписчиков в телеграм-канал и подружиться с самыми амбициозными стартаперами vc.ru

Рассказываю, во что вылилась моя идея скрещивания «Трибуны» с Product Hunt, как я набирал подписчиков после первой публикации на vc.ru и насколько активно аудитория в Telegram следит за подборками лучших продуктов из «Трибуны».

Кому нужен футбол в селе

Как «Кружок» и «Тинькофф» организовали футбольные сборы в Тамбовской области или история о спорте за пределами больших городов.

Фото: Филипп Задорожный / Stereotactic
null