🧮Data Mining для чайников. Лонгрид

«Data Mining», также известный как анализ больших данных или интеллектуальный анализ данных (далее ИАД), является крайне актуальным инструментом, который применяется для работы в различных современных областях науки и бизнеса, таких как: медицина, государственное управление, маркетинг, розничная торговля и многие другие.

Главной целью ИАД является извлечение полезной информации и знаний из больших объемов данных, которые могут быть использованы для улучшения бизнес-процессов, принятия экономически-оптимальных решений, повышения эффективности и качества работы в организационной структуре. Интеллектуальный анализ данных также помогает строить прогнозы на основе анализа исторических данных. Такие прогнозы позволяют предпринимать более обоснованные решения в будущем.

В данной статье я остановлюсь на основных задачах и проблемах, которые решаются при помощи Data Mining'а; рассмотрю современные вызовы данной дисциплины, а также актуальные методы их решения.

Интеллектуальный анализ данных — это область науки о данных, которая начала развивать в прошлом столетии. Изначально, ИАД возник как подраздел искусственного интеллекта и математической статистики, однако ученые данных поняли, что данная дисциплина должна занять отдельное место, так как имеет иную направленность.

Одним из основателей ИАД является Дж. Хэнд. Именно он в 1986 году предложил термин «Data Mining». Конечно, история работы с большими данными началась существенно раньше. Уже в 1960-х годах на фоне развития баз данных и статистических методов, начались первые эксперименты по автоматизации анализа больших объемов данных.

В 90-х годах ИАД начал активно развиваться, что было связано с быстрым развитием компьютеров и возможностью считать мегабайты и гигабайты данных. В этот период были разработаны основные методы, такие как деревья решений, нейронные сети, регрессионный анализ, временные ряды и т.д.

С развитием интернет-технологий в нулевые появилось множество инструментов и программ для анализа данных. Пришла новая эпоха хранения и обработки данных, что привело к более эффективному использованию методов ИАД в различных отраслях.

На сегодняшний день существует множество программных пакетов, которые позволяют производить операции над большими группами данных и анализировать их относительно быстро. Удачными примерами служат: IBM SPSS Modeler, RapidMiner, SAS Enterprise Miner, Knime, Weka и др. Также в настоящее время появляются и новые методы и технологии, такие как глубокое обучение, которые позволяют работать с еще более сложными наборами данных и получать более точные результаты.

В целом, развитие анализа данных продолжается. Футурологи считают, что в будущем это станет еще более важной областью, так как объемы данных продолжают расти, а эффективное использование этих данных становится все более критичным для бизнеса и науки.

Теперь предлагаю дать определение и рассмотреть область интеллектуального анализа данных более предметно. Понятие «интеллектуальный анализ данных» лучше всего охарактеризовывает Григорий Пиатецкий-Шапиро (один из основателей данного научного направления). По его мнению, ИАД – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

В этом определении кроется целевая направленность дисциплины. Данные, которые могут быть использованы для ИАД, могут быть различных типов: текст, изображение, звук, числовые данные и т. д., но они должны иметь практически полезный смысл, то есть конкретное применение на практике.

Основными задачами, которые решаются в Data Mining, являются:

· Классификация;

· Кластеризация;

· Ассоциация;

· Прогнозирование;

· Визуализация.

Остановимся на каждом из этих понятий поподробнее, так как понимание задач ИАД, может качественно помогать решать поставленные практические проблемы перед учеными данных.

Классификация: обнаружение признаков, которые характеризуют группы объектов исследуемого набора данных — классы; по этим признакам новый объект можно отнести к тому или иному классу.

Кластеризация: логическое продолжением идеи классификации. Это задача более сложная, особенность кластеризации заключается в том, что классы объектов изначально не предопределены. Результатом кластеризации является разбиение объектов на группы.

Ассоциация: в ходе решения задачи поиска ассоциативных правил отыскиваются закономерности между связанными событиями в наборе данных. Поиск закономерностей осуществляется не на основе свойств анализируемого объекта, а между несколькими событиями, которые происходят одновременно.

Прогнозирование: на основе особенностей исторических данных оцениваются пропущенные или же будущие значения целевых численных показателей.

Визуализация: создание графического образа анализируемых данных.

Чем больше проблем рождается в интеллектуальном анализе данных, тем больше появляется методов решения. В рамках данной статьи я приведу лишь часть методов, которые используются для решения наиболее актуальных и широкопрофильных задач.

Деревья решений – это метод пришел из машинного обучения. Он позволяет классифицировать данные на основе их характеристик. Дерево решений представляет собой графическое представление решения задачи классификации.

Процесс построения дерева решений начинается с корневого узла. Он представляет собой всю полноту выборки данных. Затем последовательно определяется наилучший признак, который наиболее точно разделяет данные на классы. Между делом алгоритм постоянно делает тесты на этом признаке. Результат тестов определяет, в каком направлении продолжается дерево. Процесс не завершиться до тех пор, пока не будет достигнут листовой (конечный) узел. На его основании можно стоить прогнозы.

Главным преимуществом дерева является его интерпретируемость (объясняемость). Через них можно обрабатывать разнотипные данные, включая числовые признаки или логические категории.

Главным недостатком этого метода, я считаю, его склонность к переобучению. Это происходит, когда дерево слишком точно соответствует обучающей выборке. То есть такое дерево имеет высокую способность объяснять закономерности, но только на вводных данных. А если условия поменяются, точность может стать крайне низкой.

Деревья решений чаще всего используются в сферах, где есть ограниченные наборы данных или нужно сделать выводы на основании исторических данных. В маркетинге для анализа данных о покупателях и «умном ценообразовании» можно использовать деревья решений.

Нейронные сети (далее НС). Этот метод также вышел из машинного обучения. Он менее понятный, так как представляет совокупность множества взаимосвязанных нейронов, способных обрабатывать и анализировать информацию.

Существует множество различных типов нейронных сетей, включая многослойные персептроны, сверточные НС, рекуррентные НС и другие.

Нейронные сети обучаются путем корректировки весовых коэффициентов между нейронами. Обучение может быть проведено с помощью различных методов, включая обратное распространение ошибки, генетические алгоритмы и алгоритмы кластеризации.

Нейронные сети могут быть использованы для решения многих задач, например:

1. Распознавание образов. НС могут быть обучены для распознавания образов на изображениях. Это используется в алгоритмах распознавания лиц или классификация объектов на изображении.

2. Классификация. НС могут быть использованы для классификации объектов на основе их свойств. После обучения такие нейронные сети могут вычленять признаки агрессивно написанного текста или распознавать удивление.

3. Прогнозирование. НС могут быть использованы для прогнозирования будущих значений на основе исторических данных. Часто такие НС, они могут быть использованы для прогнозирования цен на акции или изменения погоды.

Так или иначе, алгоритм работы НС позволяет при обучении определить наиболее корректные веса между различными нейронами. А это позволяет делать логические выводы с высокой точностью.

Ассоциативные правила используются для поиска скрытых связей между переменными в больших наборах данных. Предпосылкой данного метода является предполагаемая зависимость между различными элементами набора данных, и что эти зависимости могут быть использованы для предсказания будущих событий.

Наиболее распространенным применением ассоциативных правил является анализ корзины покупок в магазинах. Розничные продавцы могут использовать ассоциативные правила для того, чтобы понимать, какие товары обычно покупают вместе. Таким образом, магазин будет предлагать клиенту другие товары, которые он также хотел купить.

Самым известным алгоритмом ассоциативных правил является алгоритм Apriori. На первом этапе он находит все группы, которые встречаются в исходном наборе данных. Затем алгоритм проходит по каждой группе и проверяет, насколько часто он встречается в наборе данных. Если набор встречается достаточно часто, то алгоритм считает его значимым и продолжает работу со следующим набором. Если набор встречается слишком редко, то он отбрасывается. Можно сказать, что используется интеллектуальный перебор групп данных.

Результатом работы алгоритма Apriori будут выступать правила вида «Если А, то В«, которые описывают зависимости между различными элементами данных. Например, правило «Если покупается хлеб и молоко, то вероятно, что будет куплено яйца" говорит о том, что товары "хлеб» и »молоко» часто покупаются вместе, и что при покупке этих товаров клиенты часто покупают также и яйца.

Регрессионный анализ — это один из наиболее простых типов анализа данных. Его используют для нахождения взаимосвязей между объясняемой переменной и одной или несколькими объясняющими переменными. Регрессионный анализ используется для предсказания значений зависимой переменной на основе значений независимых переменных.

Для проведения регрессионного анализа используется статистическая или эконометрическую модель (иногда называется описательной статистикой). Обычно используется линейная модель регрессии, но могут быть использованы и другие типы моделей, такие как логистическая модель регрессии или полиномиальная модель.

Метод применяется во многих областях науки, включая экономику, маркетинг, финансы и медицину. Эталонным в эконометрике примером регрессионного анализа может служить прогнозирование объема продаж на основе различных факторов, таких как цена, количество рекламы и временной период. Использование регрессионного анализа может помочь определить наиболее значимые факторы, которые влияют на продажи, и прогнозировать будущие прибыли на основе этих факторов.

Временные ряды тоже являются классическим эконометрическим методом в ИАД. Он используется для анализа данных, изменяющихся во времени. Временные ряды могут быть применены для прогнозирования будущих значений, выявления трендов или сезонностей, а также для выявления аномалий.

Временные ряды состоят из набора значений, которые измеряли в однородные (последовательные) промежутки времени. Например, это могут быть данные о ценах на акции, температуре воздуха или количестве запросов на поиск сайта в интернете.

Для анализа временных рядов используются различные модели, использующие методы: скользящего среднего, экспоненциального сглаживания, анализа авторегрессии и скользящего среднего (ARMA), анализ авторегрессии и интегрированного скользящего среднего (ARIMA) и многие другие. Через алгоритм временных рядов часто прогнозируют различные экономические показатели.

Говоря о выводах в своей статье я хотел бы остановить внимание на последних научных работах в области интеллектуального анализа данных. Перечислю несколько актуальных зарубежных исследований в области Data Mining:

1. «AutoML for Time Series: A Review of the State-of-the-Art» — исследование, посвященное применению автоматизированного машинного обучения для временных рядов. Авторы обзорно описывают существующие методы автоматизации в области временных рядов и рассматривают перспективы их использования.

2. «Federated Learning: Strategies for Improving Communication Efficiency» — исследование, посвященное проблеме передачи данных при использовании федеративного обучения. Авторы предлагают новые стратегии для улучшения эффективности передачи данных в системах федеративного обучения.

3. «Efficient Deep Learning for Big Data: A Review» — обзорная статья о применении глубокого обучения для обработки больших объемов данных. Авторы исследуют различные методы оптимизации глубокого обучения, которые могут улучшить эффективность обработки больших объемов данных.

4. «Clustering Big Data: A Survey» — обзорная статья о применении методов кластеризации для больших объемов данных. Авторы рассматривают различные методы кластеризации и применение их в различных областях, таких как биомедицинская и финансовая индустрии.

5. «Anomaly Detection in Healthcare Data: A Survey» — обзорная статья о применении методов обнаружения аномалий для медицинских данных. Авторы исследуют различные методы обнаружения аномалий и их применение в медицинской индустрии для обнаружения рисков и опасностей для здоровья пациентов.

Данные работы демонстрируют, что ИАД остается одной из самых актуальных областей современной науки. Развитие новых методов и технологий позволяет использовать данные более эффективно, что в свою очередь приводит к появлению новых инноваций и улучшению качества жизни людей.

Также хотел бы заострить внимание на этических и правовых проблемах анализа данных. Нередко внимание общественности привлекает использование персональных и конфиденциальных данных при аналитике. Ранее уже практики использования ИАД для создания третированной рекламы, но выяснили, что она вызывает недоверие и чувство нарушения частной жизни. К сожалению, на сегодняшний день существуют риски использования данных для манипуляции общественным мнением или воздействия на общественно-политические процессы.

В заключении важно отметить, что интеллектуальный анализ данных уже нашел своё место в различных областях жизнедеятельности, таких как бизнес, медицина, наука и технологии. Технологии и инструменты ИАД постоянно совершенствуются и улучшаются. Современные системы основанные на методах ИАД обладают высокой скоростью обработки данных и удобными пользовательскими интерфейсами, что делает эту область доступной для широкого круга специалистов.

Таким образом, Data Mining является неотъемлемой частью научного дискурса. Сфера больших данных продолжает развиваться и находить новые применения в нашей жизни. Потенциал интеллектуального анализа данных еще не полностью раскрыт, и в будущем мы можем ожидать новых методов, технологий и инструментов, которые помогут нам справляться с растущим объемом данных и находить в них новые возможности и знания.

🧮Data Mining для чайников. Лонгрид

Введение

История интеллектуального анализа данных

Понятие и задачи интеллектуального анализа данных

Методы интеллектуального анализа данных

Выводы