Лого vc.ru

«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге

«Компьютер не понимает смысла событий»: проблемы использования машинного обучения в маркетинге

Антон Липатов, менеджер по развитию и инновациям маркетинговой группы «Текарт», написал для vc.ru колонку об использовании алгоритмов машинного обучения в маркетинге. Он утверждает, что подход не всегда эффективен, потому что вложения в технологию окупаются только для крупных компаний, а фрагментация маркетинговых данных не позволяет добиться качественного результата.

Поделиться
Антон Липатов, менеджер по развитию и инновациям маркетинговой группы «Текарт»

Задача этого материала — показать подводные камни применения алгоритмов машинного обучения в маркетинговых задачах. С ними столкнулись мы, и сталкивается каждая компания, ставящая машинное обучение на службу маркетингу.

Примерно 3−4 года мы фиксировали рост интереса к теме данных. Он сводился к тому, что клиент говорил: «У нас есть данные, мы не знаем, что с ними делать». Нужно обработать, интерпретировать и упаковать данные таким образом, чтобы они стали знаниями, почвой для принятия решений. Всё просто.

Посмотрели, попробовали алгоритмы машинного обучения на клиентских базах в десятки и сотни тысяч записей. Мягко говоря, не взлетело. Ни в одном из случаев нельзя сказать, что машинное обучение стало панацеей. Что нельзя было обойтись более простыми методами, например, RFM-сегментацией клиентов по давности последней покупки, частоте и величине покупок.

Ещё одна задача заметки — в популярной форме рассказать, почему сейчас происходит активный отказ от термина big data.

Популярный стиль изложения разрешает вольность, в пределах разумного, в использовании терминов. Так, давайте считать синонимами понятия «машинное обучение», «дата-майнинг», knowledge discovery in databases и ту компоненту big data, которая относится непосредственно к алгоритмам решения задач. Какие еще есть компоненты у big data, напишем далее.

Почему прошла эпоха термина big data

Большие данные на марше

Если кто-то не знал — да, эпоха прошла. В приличных компаниях лучше этот термин изъять из обращения, воспользоваться «дата-майнингом» или импортозамещающим «машинным обучением». Говорят, со smart data вы тоже будете неплохо выглядеть.

Что и когда случилось с big data? С big data с самого начала все было не в порядке. Только ленивый не говорил о том, что термин был введен на скорую руку и совершенно не отражает сути явления.

Почему не отражает? Дайте четкое определение big data. Сомневаюсь, что это смогут сделать специалисты. Сомневаюсь, что полученные ответы будут похожи друг на друга.

При этом большинство, конечно, назовет примеры конкретных задач, которые относятся к области больших данных. Они будут похожи друг на друга тем, что на входе есть много данных, на выходе — «профит». Между данными и профитом — черный ящик.

Пример 1. У банка есть доступ к миллионам кредитных историй. Каждый клиент имеет свои характеристики: социально-демографические, историю кредитования. Классическая скоринговая задача состоит в том, чтобы дать прогноз вероятности проблем, которые возникнут со вновь выдаваемым кредитом, на который оформил заявку клиент.

Пример 2. Есть база покупателей интернет-магазина. Нужно «нарезать» их на группы в зависимости от особенностей покупки. Вести единую коммуникацию в рамках группы.

Пример 3. Есть база продаж интернет-магазина. На основании исторических данных нужно разработать систему, рекомендующую товары дополняющие покупку.

Главная ценность черного ящика — это алгоритм машинного обучения, который находит нетривиальные знания в базах. Понятно, что выдать кредит человеку с хорошей историей и высоким доходом лучше, чем с плохой историей и низким доходом. Это тривиальное знание. Но, например, сложно заранее прогнозировать, что много «плохих» кредитов берется в понедельник. Это нетривиальное знание, до которого банковским аналитикам было бы сложно дойти.

На машинном обучении выросли многие интернет-технологии, которые мы сегодня воспринимаем, как должное: поиск, автоматический перевод, рекламные технологии. Например, подбор аудиторий по технологии look-alike.

Почему изначально класс решений не назвали «машинным обучением» или другим синонимом? Потому что машинное обучение сложно продать. А термин big data оказался отличной маркетинговой упаковкой. Этот лейбл на решении повышает цену в несколько раз. Простые продающие слова в названии, особенно если не дают понимания смысла, действуют магическим образом на руководителей: «У тебя есть big data? Нет? Ты рискуешь отстать, беги и срочно покупай. Все об этом уже говорят».

Нечто похожее 6−7 лет назад в России было с нанотехнологиями. Мало кто понимал, что это такое, но на это выделялись большие деньги.

Так появилась цитата про big data: «Большие данные как подростковый секс: все говорят о нем, никто на самом деле не знает, как им заниматься. Все думают, что остальные это делают, и поэтому заявляют, что занимаются тоже».

Цитата самодостаточна. Ее автор Дэн Эраэли работал в нескольких престижных университетах, его пять речей собрали более 10 миллионов просмотров на сайте TED. Единственное, он не имеет никакого отношения к big data. Его специализация — это психология в экономике, исследование иррационального поведения экономических субъектов.

Он получил Шнобелевскую премию за доказательство того, что дорогие лекарства плацебо помогают лучше дешевых лекарств плацебо. Напомню, у его презентаций 10 миллионов просмотров. При этом он не имеет отношения к большим данным, но тоже говорил о них.

Кстати, цитата сама по себе не новая — на протяжении 20 лет в неё подставляют нужный термин. Так, например, в 1998 году речь шла о e-commerce.

Что еще нужно, чтобы убеждать покупать? Правильно, аналитика, демонстрирующая активный рост и безоблачное будущее.

В таблице оценки и прогнозы четырех исследовательских компаний мирового рынка больших данных, сделанные в 2013—2014 годах. Большим данным большие оценки и соответствующие темпы роста, которые в 5−6 раз в процентах выше по сравнению с рынком ИТ в целом.

Оценки и прогнозы рынка big data в миллиардах долларов, сделанные в 2014—2015 годах

На старте в «Текарт» я несколько лет работал в нашем исследовательском направлении Techart.Research. Любая оценка в отчете должна сопровождаться описанием методологии ее получения. Если это рынок кирпича, то хватит одного предложения. А вот в случае с big data методология достойна отдельного исследования.

Вот описание методологии IDC (International Data Corporation — прим. ред.), которая среди перечисленных компаний наиболее известна. По IDC big data — это такие проекты, которые описываются четырьмя «V»: объем (volume), скорость сбора (velocity), неоднородность (variety) и ценность (value).

На практике 4V требуют того, чтобы проект собирал большие объемы данных (от 100 Тб) или работал с высокоскоростными потоками данных, а ежегодный прирост объема данных составлял более 60%. Данные должны быть разнородными, а решение должно иметь горизонтально масштабируемую архитектуру.

«Очень простое» определение big data от IDC

Что такое объём рынка big data на основании этого определения? Это, ни много ни мало, инвестиции, расходы на процессы, которые относятся к классу big data. Полный круг расходов: это и «железо», то есть процессоры и хранилища, и софт, и профессиональные услуги. Иногда даже зарплата персонала компании-подрядчика.

Полный круг затрат. Если учесть зарплаты, прогноз рынка превышает $ 100 миллиардов. Для сравнения мировой рынок софта оценивается только в $ 400 миллиардов. Получается, что big data — это уже четверть мирового рынка программного обеспечения.

Основа рынка big data — это «железо» и инфраструктура. Источник: Wikibon, 2014

Мы помним, что главная ценность и «лицо» big data — не аппаратное обеспечение, а алгоритмы машинного обучения. Но если смотреть на структуру рынка, все немного не так: «железо» занимает больше трети.

В остальных двух третях весьма расплывчатые термины «услуги» и «софт». Что из этого и как можно привязать к машинному обучению — непонятно, но можно с уверенностью говорить, что более половины рынка приходится на решение задач создания хранилищ.

Подобное передёргивание не могло долгое время оставаться в стабильном состоянии. Поэтому в 2015 году термин big data внезапно исчез с кривой зрелости технологий Gartner, составленной по методологии Hype Cycle. Годом ранее они вошли в эпоху «избавления от иллюзий» с прогнозом достижения «плато продуктивности» в последующие 5−10 лет. В пресс-релизе о выпущенном исследовании компания не дала комментария. Насколько можно судить по косвенным источникам, речь шла об отказе от термина big data в пользу машинного обучения.

Прогноз Gartner в 2014 году
Прогноз Gartner в 2015 году

Так заканчивается эпоха big data, но ни в коем случае не эпоха машинного обучения. Машинное обучение сейчас на коне в тех задачах, в которых возможен и целесообразен статистический подход.

Статистический и аналитический подход

Подход машинного обучения — это статистический подход, который хорошо известен в науке. Он противопоставляется аналитическому подходу. В чем их отличие?

Объясним очень грубо, на примере физики. В определенном процессе нужно найти уравнение зависимости величины у от величины x — y = f (x). Это может быть зависимость ускорения от приложенной силы по второму закона Ньютона или прироста температуры от потребленного тепла.

Аналитический подход заключается в том, чтобы описать все происходящие явления и на их основании вывести закон. Статистический подход — провести серию экспериментов, построить таблицу соответствия значений x и y и математическими методами определить зависимость.

Аналитический и статистический метод часто дополняют друг друга в нашем стремлении к познанию окружающего мира.

Методы машинного обучения не имеют ограничений на природу описываемых с их помощью явлений. То есть для применения алгоритмов не важно, идет ли речь о данных с датчиков технологического процесса, данных продаж интернет-магазина или словах для перевода на другой язык.

Перевод — та область, в которой машинное обучение совершило революцию. Если вы сторонник аналитического подхода, то чтобы перевести предложение с одного языка на другой, вам нужно задать правила морфологии, семантики, синтаксиса, и это только начала очень длинного списка. Перевод в поисковых системах основан на огромной базе текстов. Здесь не нужно выводить правила, согласовывать члены предложения: текст в выдаче будет определен на основании статистических показателей.

Другие области, в которых машинное обучение не только получило применение, но и вывело решения на новый уровень, — это сам поиск, обработка результатов научных исследований, прогнозирование загруженности дорог, выявление фактов мошенничества, медицинские исследования. Там машинное обучение дает уникальные по ценности результаты.

В 2014 году Аркадий Волож назвал большие данные в корпоративном сегменте одной из трех идей для следующего миллиарда «Яндекса». И в 2016 году у направления Yandex Data Factory, среди прочего, уже есть интересный промышленный кейс поставки решения для Магнитогорского металлургического комбината.

Во всех случаях на руку экспериментальному подходу играют стабильные, постоянно пополняемые источники больших данных. На подходе новые великие потоки, такие как интернет вещей и датчики человеческих чувств.

Машинное обучение в маркетинге

Кажется, со статистическим подходом в маркетинге все здорово: машинное обучение позволяет маркетологу спуститься на уровень конкретного клиента, конкретной транзакции. Говорить с клиентом тет-а-тет на его языке, понимать его потребности. Стать лавочником из Средневековья, который не только знает, кому что нужно предложить, но и который в курсе некоторых интимных подробностей жизни своих клиентов. Почему бы и нет, сейчас на каждого из нас уже есть хорошее досье. В итоге маркетолог может тратить меньше, продавать больше и купаться в лояльности.

Но, как выясняется, маркетинговые данные, а мы помним, что качество данных и стабильность их поступления принципиально важны, весьма отличаются от базы запросов Google или истории пробок на трассе. Эти отличия делают уровень пользователя не таким уж и приятным для ведения маркетингового диалога с клиентом.

Инструменты с бессмысленным уровнем пользователя

Данные о конкретных пользователях, их поведении и действиях, полезны не во всех маркетинговых каналах. Они хорошо подходят для персонализации сайта, email-рассылок, рекламных моделей programmatic.

В других каналах индивидуальная персонализация невозможна или бесполезна. Это киты интегрированного маркетинга: SEO, контекстная реклама, в которых мы в лучшем случае можем мыслить и работать с сегментами пользователей, а также реклама в офлайне, которая по-прежнему составляет главную строку бюджета маркетинговых затрат.

Машинное обучение — не про знания

Вторая особенность: машинное обучение существует само по себе и имеет мало отношения к знаниям. Применяемые алгоритмы сложны для понимания и в большинстве случае представляют собой черные ящики для самих исследователей. Результаты машинного обучения сложно или невозможно распространять на другие задачи. Каждая новая задача — это новое обучение.

Например, есть задача прогноза, какой размер скидки принесет наилучшую прибыль. Статистический подход предполагает загрузку данных о прошлых акциях и поведении потребителей. На этом основании выдает число.

При традиционном анализе размер скидки устанавливается субъективно, исходя из ряда факторов, таких как опыт исследователя, обращение к опыту коллег, проведение тестов с аудиторией. В это число входит анализ макроэкономических факторов, таких, например, как динамика доходов населения.

Оба подхода выдадут какой-то результат. Но на вопрос «почему столько?» у мастера машинного обучения будет один ответ — потому что так показали расчеты. В то время как сторонник дедуктивного метода, скорее всего, сможет восстановить цепочку рассуждений.

Результаты машинного обучения справедливы только для тех данных, которые у вас есть на входе. Как только появляются принципиально новые данные (например, от новых сегментов аудитории), на них алгоритмы, скорее всего, работать будут плохо. Для аналитического метода изменение входов — это тоже проблема. Но там преимущество состоит в том, что есть ответ на вопрос:«Почему мы решили предыдущую задачу именно таким образом?» И экстраполяция на новые входы может быть более простой.

Проблема качества данных

Проблема знаний философская. Машинное обучение не накапливает знания? Ну и что, мы в любой момент можем все пересчитать. Это, правда, тоже не всегда просто. В жизни куда более важно качество исходных данных, к которому чувствительны экспериментальные методы.

Чем больше факторов включено в анализ, тем, с некоторыми оговорками, интереснее и неожиданнее могут быть результаты. Это прекрасно работает, когда данные приходят от системы датчиков: по каждому фактору вы имеете стабильный поток значений.

В маркетинге данные на уровне пользователя не такие стабильные.

Во-первых, они подвержены различным шумам. В интернете причиной шума может быть несовершенство систем веб-аналитики или работа роботов. Хорошо, когда шумы экстремальные, тогда и их легко отловить. Когда они похожи на честные данные, это сделать очень сложно.

Во-вторых, данные фрагментированы. Для одних пользователей известен пол, для других — история запросов, для третьих — регион.

Получается, что модели строятся на некачественных данных, что и определяет соответствующий результат. В частности, по этой причине, сегодня неидеально работает programmatic.

Можно пойти по пути уменьшения количества факторов, которые берутся в расчет. Но здесь теряется уже смысл машинного обучения, поскольку при меньшем количестве условий лучший результат покажут более простые методы анализа данных или аналитический подход.

Сбор данных, подготовка — отдельная подзадача и отдельные инвестиции, которые нужно учитывать в конечном ROMI внедрения машинного обучения.

Корреляция вместо причинно-следственной связи

Машина может делать нечто, напоминающее принятие решений. Но компьютер не понимает смысла анализируемых событий, для него это лишь ряды цифр. Машинное обучение сводится к поиску корреляций — связей между изменениями факторов. Но такая связь вовсе не означает наличие причинно-следственной связи.

Классический пример: в европейских странах, где легализована проституция, число церквей в городах коррелирует с числом домов терпимости. Но не потому грешники больше каются или эти параметры еще как-то дополняют друг друга, а потому, что оба они зависят от другого фактора — населения города.

Проблема эффекта

Известно, что с ростом сложности эффект от анализа падает, а затраты возрастают. Машинное обучение — это очень сложная технология, технология «последней мили». С ее помощью «за дорого» можно выжать дополнительные 2−3% эффективности, что имеет экономический смысл на больших объемах бизнеса.

Пример таких затрат — конкурс Netflix Prize, который проходил в 2006—2009 годах. Если не первое, то самое известное соревнование в области больших данных с призовым фондом в $ 1 миллион.

Американская компания Netflix занимается прокатом видеофильмов. Каждому фильму пользователь ставит оценку — от одного до пяти. Нужно было предугадать оценку, которую пользователь поставит новому фильму. На основании этих оценок формируется рекомендательный список фильмов.

Очевидно, логика заключалась в том, что если Netflix даст правильные рекомендации, это повысить лояльность клиента, он будет брать фильмы напрокат чаще и не уйдет к другому прокатчику. Самый простой вариант — посчитать среднее по всем оценкам фильма — давал среднюю квадратическую ошибку примерно в один балл. Если очень грубо, то он ошибался в каждом случае с оценкой примерно на балл.

Цель конкурса была улучшить показатели этого простейшего подхода на 18% или улучшить разработанный ранее алгоритм Netflix на 10%.

В итоге цели удалось достичь. Не смог найти оценку общих затрат труда на проект, но она огромна. Надо понимать, что конкурс продлился три года, в первый год зарегистрировалось 20 тысяч команд, а команда-лидер по итогам первого года потратила две тысячи человеко-часов.

Проблема визуализации

Еще одна маленькая ложка дегтя. Результаты анализа на пользовательском уровне сложно представить. Как правило, мы получаем нечто вроде таких графиков, которые сложно интерпретировать и что-то с их помощью доказать руководству. Для большинства и процесс исследования до момента результатов остаются черным ящиком.

Перечисленные ограничения не хоронят идею, но на сегодня именно качество данных делает машинное обучение в маркетинговой плоскости неэффективным или нишевым инструментом. И тут еще одно замечание.

Последние несколько лет, особенно в интернет-маркетинге, мы переживаем подъем data-driven, то есть ориентированного на данные подхода. CRM, персонализация сайта, теперь машинное обучение. Эти и другие технологии используют данные для повышения эффективности маркетинга. Мы считаем ROI, LTV и прочее. Оцениваем рекламные кампании. Я тоже сторонник data-driven подхода.

Это все очень здорово. Наверное, ни один из топовых брендов не был бы так высоко, если у них был неэффективный маркетинг. Однако создается ощущение, что интернет-маркетинг возвращается к войне алгоритмов SEO начала века, когда за счет дыр в «Рамблере» сайт выводился в топ за три дня. С «Яндексом» потом было сложнее, но все равно работал алгоритм: следуй инструкциям по продвижению, и успеха не избежать.

После этого поисковики приложили немало усилий, чтобы поставить интернет в маркетинговую колею. Появилась большая группа поведенческих факторов ранжирования, выросла значимость хорошего контента. Интернет-маркетинг начал приобретать человеческое лицо, стал ближе к «традиционному» маркетингу.

И тут технологии машинного обучения претендуют на то, чтобы заместить на поле битвы маркетологов обратно алгоритмистами.

Создается ощущение, что за всем этим несколько теряется истинная суть маркетинга, которая заключается не в постоянном повышении эффективности, а в способности понять клиента, сформировать у него потребность и реализовать ее.

Компьютер не способен справиться с задачей формирования потребности. Поэтому чистый ориентированный на данные маркетинг, в котором алгоритм заменяет маркетинговую идею, имеет право на жизнь, но вряд ли станет залогом небывалого успеха. Как не стоит ставить равенство между маркетингом и маркетингом на уровне пользователей, так и не стоит полностью заменять маркетинг синтетическим эрзац-маркетингом, основанном только на данных и на истории.

Возможно по этой причине эмпирический подход, заложенный в технологии больших данных, хорошо работает в холодных областях, таких как перевод, анализ научных исследований, финансы. И пока плохо в области маркетинга, который изначально теплый и ламповый.

Присылайте свои колонки и кейсы о рекламе и маркетинге на digital@vc.ru.

Рубрика «Digital» выходит при поддержке проекта «Одноклассники»
Популярные статьи
Показать еще
Комментарии отсортированы
как обычно по времени по популярности

Автор постоянно забывает, что алгоритмы машинного обучения - это не ИИ, способный сделать за него всю работу. Успешность машинного обучения прямо пропорциональна когнитивным способностям человека, ставящего задачу алгоритмам.
Непонимая истинную сущность инструмента, заявлять о его негодности нельзя.
Статья - демагогия.

Спасибо за комментарий. Согласен с вами насчет того, что успех зависит от квалификации человека. На этом стоило поставить акцент, если бы статья была о другом.

Никто не заявляет о негодности машинного обучения. Более того, за ним, явно, будущее. Речь о том, что современный маркетинг (и только маркетинг) пока не может эффективно использовать эти технологии в силу описанных причин.

Современный маркетинг - это вы так жестко обобщаете рабочую силу с низкой квалификацией, задействованную в отделах маркетинга?
Тогда - да.

Еще раз: данные - это контент, алгоритмы - это инструмент работы с контентом, человек, создающий задачи для всего этого - это стратег.

Плохая стратегия -> неэффективное использование инструмента -> анализ ненужных данных -> говно на выходе

Александр, послушайте насчет стратега с вами и не спорю. Все это правильно.

Однако смысл в том, что очень грубо (пользуюсь вашими терминами): машинное обучение для маркетинговых задач - это, скорее, плохая стратегия. При том качестве данных и инструментов, которые сегодня есть в распоряжении.

Поэтому и мысль про стратега для статьи не считаю самой главной.

0

Вы или толстый тролль, или просто залезли не в свою область компетенции.

Вы говорите про:
А) Проблемы входа
- Низкое качество данных
- Непостоянный приток данных

Б) Проблемы на выходе
- Бесполезность данных для маркетинга
- Большие затраты человеко-часов
- Сложность презентации результатов

Все эти проблемы касаются вашей рабочей силы, то есть сотрудников, а не инструментов.

С т.зр. инструментов:
В машинном обучении есть пять основных и еще туча непризнанных направлений, которые строят свои алгоритмы по разным принципам.

1) Символисты
2) Аналогисты
3) Эволюционисты
4) Коннекционисты
5) Байесовцы

Каждое направление эффективно в различных задачах.
Какой путь использовали вы? Уверены, что не забивали гвозди микроскопом?

Давайте попробуем так.

Я не имел права обобщать выше "современный маркетинг", поскольку свой отпечаток накладывает специфика наших задач. Хорошо.

А теперь, добавьте, пожалуйста, немного value для читателей и расскажите истории успеха машинного обучения в "современном маркетинге", как видите его вы.

0

Tesco, Amazon, Netflix, Nike, Google, Walmart, FB.
Ценность работы с данными понимает даже Nike.
Fuel Band - вот вам рабочий пример.
Disney - парки развлечений напичканы датчиками и алгоритмами.

Машинное обучение и операционная аналитика - будущее экономики.

Вы так и не ответили, какие алгоритмы и для каких задач вы использовали.
На основании каких примеров вы сделали вывод о негодности ML?

Принято. Хороший пример про Disney - о нем не знал. Насчет Fuel Band - не уверен, что про маркетинг.

Но согласитесь, что все это крупный бизнес, и все эти бренды вы могли бы назвать и 3-5 лет назад. А можете назвать примеры в России?

Повторю то, что писал двумя ответами выше: "Никто не заявляет о негодности машинного обучения."

Вы разводите демагогию, вместо признания о ложности посыла статьи.
Использование продвинутых инструментов и отличает успешные компании от посредственных.

Вам предоставили достаточно доказательств.
Погружайтесь в тему глубже. В обе темы - маркетинг и работу с данными.
Всяко продуктивнее.

Мне тоже реальные кейсы интересны, вы перечислили названия брендов, но по существу то, что они у себя в маркетинге улучшили с помощью МЛ?

0

Александр, уточню, на всякий случай.

> При том качестве данных и инструментов, которые сегодня есть в распоряжении.

Про инструменты - имел в виду маркетинговые инструменты, ни в коем случае не эффективность алгоритмов машинного обучения.

Не современный маркетинг, а вы с вашими клиентами.

Так, клиенты здесь не при чем, давайте не будем о них :)

Окей. Мы не можем эффективно использовать технологии машинного обучения в решении своих маркетинговых задач.

Расскажите или намекните, где у вас успех?

0

Почему не можете? Или конкретно вы не можете? 90% вопроса - правильная формализация задачи.

И, да, вы правы, что современные методы МЛ против маркетинга/консалтинга - это как современный прогноз погоды против шаманов/ведьм века эдак из 14.

Уважаемый, не можем в силу причин, описанных в части "Машинное обучение в маркетинге". Сейчас, надеюсь, их развенчают в этой ветке.

А мысль из второго абзаца вы мне приписываете.

0

Ну так а что же такое ИИ?

0

Если сравнить со слепым и видящим человеком. Слепой человек не имея конкретных видимых и понятных данных он как то определяется в пространстве, а видящий закрыв глаза хуже определяется в пространстве. Даже если слепой человек сообщит какие-то конкретные данные как он "видит", врятли видящий сможет его понять, не то что применить.

0

Сначала научите машинное обучение научите выигрывать казино. а то оно ничем не лучше человеческих мозгов!

0

Я бы подумал, что вы- бот. Но орфография..
Изъясняйтесь на понятном языке плз.

0

Он и пишет, что если поставить людей с высокими "когнитивными способностями" на маркетинг, то есть опасность повторения ситуации с сеошниками) - "И тут технологии машинного обучения претендуют на то, чтобы заместить на поле битвы маркетологов обратно алгоритмистами."
Потому что маркетинг, это не про подглядеть, что людям нравится неведомая фигня, а больше про то, чтобы сформировать потребность к этой неведомой фигне. Ну и помимо маркетинга, компьютер не понимает смысла, и есть мнение, что никогда не поймет.

0

> Но, например, сложно заранее прогнозировать, что много «плохих» кредитов берется в понедельник. Это нетривиальное знание, до которого банковским аналитикам было бы сложно дойти.

Soooqa! Ваше нетривиальное задание решается созданием вектора, который может принимать дискретные величины от 0 до 6.

Вообще, дочитал до момента "зададим функцию х от у", и у меня возник вопрос - Какое образование у автора? Какой у него опыт в БД/МЛ сфере?

Спасибо за комментарий.

Про плохие кредиты и понедельники плохо написано, согласен.
Насчет функции - поясните, в тексте этого термина и цитаты соответственно нет.

Вы половину почти освоили, дальше интереснее будет.

Ну и название у ребят, читается как маркетинговая группа "Теракт".

Олег, ваш комментарий - классический :)

Изначально TECH(nology)+ART. И вот уже 17 лет как.

но вы гнёте дальше свою линию с этим неймингом

Раньше мы особо такой проблемы с прочтением не отмечали, но сейчас видимо слишком много в новостях про теракты(( поэтому бывает, что люди на автомате читают название таким образом... Зачастую мы используем английское написание, которые не вызывает таких вопросов.

0

Можно было бы все свести к:
Data Mining подходит для более-менее стабильных данных, в остальных случаях прогнозы скорее всего будут неверными.

По-сути, это утверждение и лежит в основе подхода.

Поэтому мне кажется, что в маркетинге хайп вокруг data mining связан с низкой квалификацией большинства в области, потому что в маркетинге, как и в айти/экономике, обучают статистике и можно понять на каких данных применять алгоритмы, а на каких нет.
С одной стороны в интернет-маркетинге сложно строить статистические прогнозы, а с другой стороны прогнозов требуют инвесторы, начальники и что-то выдавать все равно приходится, пусть даже ты сам будешь знать, что у прогноза погрешность огого какая.

Спасибо.

Простите, но статья не сводится к проблеме качества данных. Это важный тезис, но только один из.

Далее, на мой взгляд, вы немного сужаете или под "прогнозом" понимаете весь класс задач машинного обучения.

0

Дело в том, что ваши "ИИ" данные не там берут. Ищите там, где не найти то, не знаете что.

Человек это ИИ. Производство людей - процесс простой и в большинстве случаев приятный для обоих сторон(плюса и минуса).
А шо не!?

0

Обучение людей простое, говоришь как надо, если не хочет делать, то говоришь, что не дашь конфету или что не будешь играть на компе. А если надо научить любить что-то, то просто говоришь, что вон всем нравиться и ты будь правильным, послушным или что, хочешь чтоб я опять лишиться играть в майнекрафт!? Как правило этих нескольких принципов хватает для дресировки двуногих людишек ;)

0

Кстати, люди любят музыку, потому что им сказали любить, убедили, показали как любить, а они настроили вокруг этой логики эмоции. Все так просто :)

0

>>речь шла об отказе от термина big data в пользу машинного обучения.

Примерно как "отказ от покупки еды в пользу ее приготовления".
Big data - это обычно все-таки про инфраструктуру сбора и хранения данных, а ML - один из способов использования этих данных.

Спасибо. Про еду - хорошее сравнение, подчеркивающее "надуманность" термина.

0

Спасибо за статью - интересно было почитать.

0

Спасибо за комментарий)

0

Спасибо, было полезно.

0

Спасибо за комментарий)

0

Чего вы бегаете с этой бигдатой как писаной торбой с учетом того, что большинство техник придумано и описано 50 лет назад?

Собственно как и опровержение того что это не работает.

Это работает, но для этого все же требуется соответствующая в том числе бизнес компетенция иначе вы всегда будете рады обратной зависимости роста глобального потепления от числа морских пиратов.

Все же когда вы строите первичные корреляции глаза человека никуда не денешь все нужно проверять и смотреть есть ли в полученном вообще какой либо смысл.

Так и не понял автор чем вы возмущены? Тем что за века мат-стат.аппарат не научился сам себя вычислять?

Кстати, насчет псевдосамообучения вам довелось ознакомиться с blackboxchallenge, которое делали ребята из DCA?

0

DCA не видел - отличная инициатива.

Раньше была еще была Олимпиада от Wikimart. Не участвовали.

0

Я вам очень рекомендую это видео

0

спасибо, сохранил

0

Иван, без шуток, ничем не возмущен. Задача была показать, что в такой области, как маркетинг, есть свои подводные камни.

0

А разве в других отраслях МЛ справляется на пятерочку и без бизнес экспертизы?

Пришли вы такой на ядерный объект, шуранули матрицу корреляции по бд, по ней быстренько модельку-другую и в продакшн. Так что ли?

Пример с ядерным объектом - не очень, туда ни с чем такой не придешь.

Если серьезно, везде же свои особенности.

0

Автору было бы неплохо разобраться в основах предмета, о котором он пишет. Машинное обучение, например, совсем даже не про данные, и уж конечно не равно ДМ. Байесовский подход, например, позволяет накапливать "знания" в решающей функции. Ну и прочие ляпы. Вобщем количество фактических ошибок не позволяет серьёзно относиться к написанному, несмотря на большую проделанную работу по сбору материала.

Игорь, спасибо за четкий комментарий. Буду признателен за список ляпов в личном сообщении

0

Все ваши машинные обучения и интеллекты не более чем просто софт. Гордыню свою прикрутите, боги ;)

ИИ давно создан, но этого не замечают даже те, кто всю жизнь его ищет. Мы давно в матрице, придурки.

Эта статья видимо навеяна исчезновением бигдата из отчетов Гартнер. В целом отличный анализ от маркетолога. На самом деле бигдата - не более чем модный тренд и пригоден для вылавливания блох в огромном потоке данных, то есть большом бизнесе, где упомянутые 2-3% (блох) от оборота дают прибыль, порвающую все затраты на саму бигдату. Например, конкурс Нетфликс. Они кстати и темы для новых сериалов ищут при помощи бигдаты (или машинного обучения). Но два замечания. Во-первых, вывод слишком очевидный, чтобы быть новым. Бигдата конечно не дает результат, а только дает данные для анализа, и польза его только в том, чтобы извлечь простые результаты и корреляции из огромного числа данных. То есть это инструмент, руками копать тоже не удобно, лучше экскаватор. Во-вторых, технологии анализа данных тоже развиваются. Появление открытых инструментов для анализа типа Яндекс фактори, и визуализация бигдаты, позволяет применять ее в самых неожиданных местах.

"Бигдата конечно не дает результат, а только дает данные для анализа, и польза его в том, чтобы извлечь простые результаты"

Откуда вы беретесь такие осведомленные?

Могу ответить только тем же - откуда ...?

0

огромная статья о чем... о корректности терминов биг-даты ?!

0

Зачем создавать ИИ если можно насоздавать больше людей. Ладно, их наклепали уже столько, что нет места уже.

Когда мы захватим марс и начнем качать от туда энергию? Нужно еще немного подумать? Лет 20?

0

Ох! Как же я вас всех люблю :) спасибо за, то что вы есть. За статью как есть и за комметы, что не счесть! Ценно все вместе, если ум на месте и в конкретном тесте.

0

Возможность комментирования статьи доступна только в первые две недели после публикации.

Сейчас обсуждают
Mike Kosulin

Год назад вроде бы в Ленде терминалы были с рецептами на входе. Или это о них и речь?

«Азбука вкуса» и бывшая «Афиша-Еда» запустили сервис для доставки ингредиентов по рецептам журнала
0
Yuriy Belonozhkin

Аналогично, нигде не видал. Хотя нет - видал на MDK. Видимо, туда надо ходить "через не хочу", дабы держать нос по ветру современных течений молодежи.

«Вжух»: реакция российских компаний на мем с котом и волшебной палочкой
0
Roma Schreibikus
Phrask

С дизайн-конторами в России вообще интересная тема -
студии с именем, с офисом в лофте с белыми стенам и велопарковой предпочтают приличную часть зарплаты платить именем, лофтом и велопарковкой.
Поэтому, ребята, не будьте хипстерами, это гораздо выгоднее.

Почему в Санкт-Петербурге сложно найти дизайнера интерфейсов
0
Roma Schreibikus
Phrask

начинающему скорее всего на 40000 стоит расчитывать.
Дизайнеров сейчас жопой жуй, так что если есть возможность, то лучше не начинайте.

Почему в Санкт-Петербурге сложно найти дизайнера интерфейсов
1
Dmitry Wolfeyes

По поводу преподавателей, нашел. В подробнее о курсе / академия в лицах, вроде где-то там. Да, интересно.
Нет, я про Тайланд не говорил. Ваша позиция мне очень близка. По поводу стажировки и тд. Я лишь заметил, что очень, очень много сейчас школ и академий, которые "дают знания". При том, что людям преподающим самим не хватает базы. На фоне этого, появление новых школ всегда ставит в тупик. В моем окружении есть 3 человека, открывшие какие-то школы. Хотя буквально год назад, они были как чистый лист. Уровень знаний, которые они дают, я думаю понятен.
Жалко не в Москве, посетил бы занятие. Интересно.

Moscow Digital Academy — образовательный проект для молодых digital-специалистов
0
Показать еще