Важно отметить, что отношения метрики качества в тяжелых и классических индустриях отличается. Например, если Джини в скоринговой модели в банке составляет 0,55 — значит, мы построили скорее среднюю модель: смогли из наших данных выделить лишь часть полезной информации о том, будет ли дефолт или нет. В то же время, если на производстве в задаче регрессии нам удается достичь значения R-квадрат около 0,7-0,75 — это прекрасный результат. Это значит, что мы начинаем контролировать нашу вариацию на 70-75%. Безусловно, остаются вещи, для которых у нас нет датчиков и информации — например, это решения инженеров, которые нигде не фиксируются, и модель этого не видит. Но даже если мы на 50% контролируем то, что раньше не контролировали совсем, это уже даёт сильнейший uplift и денежный эффект.
Прочитал пост и сразу вспомнил анекдот про овцу и консультанта.
К пастуху, пасущему стадо овец, подъезжает на машине какой-то тип, высовывается из окна и говорит:
- Если я тебе скажу, сколько у тебя овец в стаде, ты мне подаришь одну? Немного удивленный пастух отвечает:
- Конечно, почему бы и нет.
Тогда этот мужик достает ноутбук, подсоединяет его к мобильному телефону, устанавливает связь с Интернетом, заходит на сайт НАСА, выбирает спутниковую связь GPS, выясняет точные координаты места, где он находится, и отправляет их на другой спутник НАСА, который сканирует эту местность и выдает фото со сверхвысоким разрешением. Затем этот тип передает снимок в одну из лабораторий Гамбурга, которая через несколько секунд отправляет ему мыло с подтверждением того, что снимок был обработан и полученные данные сохранены в базе данных. Через ODBC он подключается к базе данных MS-SQL, копирует данные в таблицу EXCEL и начинает производить расчет. Через несколько минут он получает результат и распечатывает в цвете 150 страниц на своем миниатюрном принтере. Наконец он говорит пастуху:
- У тебя в стаде 1586 овец.
- Точно! Именно столько овец у меня в стаде. Что ж, выбирай. Мужик выбирает одну и грузит ее в багажник. И тут пастух ему говорит:
- Послушай, а если я угадаю, кем ты работаешь, ты мне ее вернешь? Немного подумав, мужик говорит:
- Ну давай.
- Ты работаешь консультантом, - неожиданно выдает пастух.
- Это правда, черт возьми! И как же ты догадался?
- Это было легко сделать, - говорит пастух, - ты появился, когда никто тебя не звал, хочешь получить плату за ответ, который я уже знаю, на вопрос, который тебе никто не задавал, и к тому же ты ни хрена не смыслишь в моей работе. ТАК ЧТО ОТДАВАЙ ОБРАТНО МОЮ СОБАКУ.
"Знание математики", "классический ML" ... Основы статистики, ито для галочки, немного алгебры. Python и несколько пакетов: pandas, numpy, sklearn, xgboost, bokeh. Иногда что-нибудь специфическое данным в задаче. Все. Тупик профессионального развития. 95% таких задач почти полностью автоматизируются. Причем велосипед изобретают все компании и потом продают его под видом "прорывного решения". Сделать это может аккуратный студент - стажер. Некоторое время назад, основным победителем ml - конкурсов (по содержанию похожих на такие кейсы) был офис менеджер, который просто автоматизировал основные этапы обработки данных и собирал по 100-500 моделей в композицию. Чтобы провести реально глубокую экспертизу и разработать хорошее решение нужна команда и время, а это дорого. И не везде это умеют. Особенно, когда "штат за год удваивать" надо.
Сроки внедрения какие-то нереалистичные. Как будто лишь бы сделать.
McKinsey, собственно, обычно так и работает :)
"Джини в скоринговой модели в банке составляет 0,55 — значит, мы построили скорее среднюю модель: смогли из наших данных выделить лишь часть полезной информации о том, будет ли дефолт или нет. В то же время, если на производстве в задаче регрессии нам удается достичь значения R-квадрат около 0,7-0,75 — это прекрасный результат."
Я бы после этого высказывания сильно задумался бы на стороне кандитата. Откровенная техническая неграмотность человка, написавшего это - очень отпугивает.
Дата саенс в макинзи - модно, стильно молодежно.
Собственно все что я видел как оезультат работ маккинзи - простейшая банальность сделанная джуниорами.
Дата, не дата, результат банальный и поверхностный.
Про предиктивную аналитику на заводе очень смешно. Это любой пакет программный по управлению заводом может. Даже с учетом стоимости контракта маккинзи подешевле выйдет