{"id":14291,"url":"\/distributions\/14291\/click?bit=1&hash=257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","hash":"257d5375fbb462be671b713a7a4184bd5d4f9c6ce46e0d204104db0e88eadadd","title":"\u0420\u0435\u043a\u043b\u0430\u043c\u0430 \u043d\u0430 Ozon \u0434\u043b\u044f \u0442\u0435\u0445, \u043a\u0442\u043e \u043d\u0438\u0447\u0435\u0433\u043e \u0442\u0430\u043c \u043d\u0435 \u043f\u0440\u043e\u0434\u0430\u0451\u0442","buttonText":"","imageUuid":""}

PandasGUI — Главный секрет лёгкого анализа данных

Анализ данных стал неотъемлемой частью различных отраслей промышленности, поскольку он позволяет нам принимать обоснованные решения на основе собранных данных. Одной из самых популярных библиотек для анализа данных на Python является Pandas, которая предоставляет мощные инструменты для обработки и очистки данных. Однако работа с Pandas иногда может показаться непосильной, особенно для тех, кто новичок в анализе данных или предпочитает более наглядный подход. Именно здесь на помощь приходит PandasGUI — библиотека, которая предоставляет графический пользовательский интерфейс Pandas, делая манипулирование данными и визуализацию более доступными и удобными для пользователя.

В этой статье мы подробнее рассмотрим PandasGUI и его функции, проведём вас через процесс установки и продемонстрируем его возможности.

1. Установка и запуск

Прежде всего, нам нужно установить PandasGUI. Как всегда, мы можем использовать pip для его установки:

pip install pandasgui

1.1 Небольшая проблема для ОС, отличной от Windows

Этот раздел предназначен для тех, кто использует ОС, отличную от Windows. Вы можете пропустить этот шаг, если вы используете Python в ОС Windows.

Похоже, автор создал эту библиотеку на ПК с Windows, поэтому предполагается, что операционная система будет иметь переменную окружения APPDATA. Однако это не относится к другим операционным системам, таким как Mac или Linux. В частности, когда мы пытаемся импортировать PandasGUI, он выдаёт эту ошибку:

import pandas as pd import pandasgui

Самый простой способ устранить эту проблему - вручную ввести пустую строку для этой переменной среды.

import os os.environ['APPDATA'] = ""

Тогда мы сможем использовать PandasGUI без каких-либо проблем.

Предупреждающее сообщение в порядке. Я предполагаю, что он не реализует некоторые рекомендуемые интерфейсы в Mac OS, поэтому моя система выдаёт это предупреждение.

1.2 Загрузка образца набора данных

Чтобы продемонстрировать эту библиотеку, нам нужно использовать образец набора данных. Если вы специалист по обработке данных, вы, возможно, знакомы с набором данных Iris, который используется во многих демонстрационных программах машинного обучения по классификации или кластеризации.

Давайте возьмём набор данных из Datahub.io . Это платформа для поиска, обмена и публикации высококачественных наборов открытых данных из различных источников. Большинство представленных здесь наборов данных с открытым исходным кодом и могут быть использованы в учебных целях в соответствии с лицензией, включая набор данных Iris.

df = pd.read_csv("https://datahub.io/machine-learning/iris/r/iris.csv") df.head() df.shape

1.3 Запуск PandasGUI

Теперь давайте запустим PandasGUI. Просто вызовите функцию show() следующим образом:

pandasgui.show(df)

Не беспокойтесь о предупреждении об отсутствующем семействе шрифтов, это снова вызвано операционной системой. Указанное семейство шрифтов не существует в моей Mac OS. Это не влияет на то, как мы используем графический интерфейс.

После того, как мы запустим эту строку кода, графический интерфейс должен появиться как настольное приложение:

2. Особенности PandasGUI

Пользовательский интерфейс довольно прост. Он состоит из следующих компонентов. Я представлю их в последующих подразделах.

  • Список фреймов данных — здесь мы можем перемещаться и переключать фреймы данных. Для удобства он также показывает форму фрейма данных.
  • Фильтрует запрос — создаёт и выбирает выражения запроса для фильтрации текущего фрейма данных
  • Список столбцов — просмотр и навигация по столбцам текущего фрейма данных
  • Функциональные вкладки — переключайте вкладки для навигации по различным инструментам.
  • Основная область — отображение результатов текущей манипуляции

2.1 Отфильтровать фрейм данных

Первая функция, которую я хочу представить, - это фильтрация. Она полагается на выражения запроса фрейма данных, чтобы быстро отфильтровать фрейм данных для нас.

В частности, нам просто нужно ввести запросы, такие как sepallength > 7, и нажать enter. Фильтр будет применён к фрейму данных. Мы можем просмотреть отфильтрованные результаты в основной области.

Если мы хотим вернуться назад, чтобы просмотреть весь фрейм данных, мы можем снять флажок с выражения, чтобы удалить фильтр.

Кроме того, разрешено добавлять множество выражений запроса и гибко применять их с помощью флажков. Например, на скриншоте ниже показаны два проверенных выражения, которые применяются для фильтрации фрейма данных.

2.2 Сортировка, преобразование типов и цветовое кодирование

В основной области фрейма данных мы также можем легко выполнять многие манипуляции, подобные Excel, такие как сортировка и цветовое кодирование. Кроме того, мы также можем легко указать тип столбца.

Например, на скриншоте ниже показано, что фрейм данных отсортирован по столбцу sepalwidth в порядке убывания, а числовые столбцы имеют цветовую маркировку в зависимости от их шкалы значений.

2.3 Статистика

На второй вкладке функций мы можем просмотреть статистику этого фрейма данных.

Также стоит упомянуть, что нам разрешено выбирать выражения запроса слева. Затем статистика будет пересчитана на основе отфильтрованного фрейма данных.

2.4 Построение графика

Я должен сказать, что Python - один из самых простых языков, когда мы хотим построить график с помощью кода. Однако, в конце концов, мы должны написать какой-то код.

В PandasGUI мы можем построить фрейм данных, используя его столбцы, за считанные секунды. Например, приведённая ниже демонстрация показывает, что мне просто нужно переключиться на вкладку “Grapher” и выбрать “Scatter 3D”. Затем перетащить несколько столбцов в поля оси.

Если мы хотим переключиться на другие типы графиков, это также не займет много времени. На самом деле это позволяет нам быстро протестировать различные типы графиков и решить, какой из них лучше отражает данные.

2.5 Изменение формы фрейма данных

Мы также можем использовать PandasGUI для изменения формы фрейма данных с помощью перетаскивания. Например, мы можем развернуть фрейм данных Iris, преобразовав его “класс” в столбцы, а затем вычислить среднее значение каждого атрибута, такого как длина лепестка.

После перетаскивания столбца нажмите кнопку “Готово”. Новый фрейм данных будет сгенерирован следующим образом.

2.6 Генерирующий код

Для большинства функций PandasGUI также может сгенерировать код для нас. Это может быть очень полезно, когда мы используем графический интерфейс, чтобы решить, какой тип графика является лучшим, а затем легко сгенерировать код, чтобы поместить его в наш реальный скрипт.

Аналогичным образом, функция изменения формы также предоставляет эту функцию экспорта кода. Это позволяет нам много раз экспериментировать с изменением формы, а затем выводить правильный код.

Что ж, мы, вероятно, можем сделать это в ChatGPT, но нужно многое объяснить, а также адаптировать это к нашему контексту :)

Заключение

Таким образом, в этой статье рассматриваются различные функции PandasGUI, мощной библиотеки, которая предоставляет графический пользовательский интерфейс широко используемой библиотеке Pandas для манипулирования данными и визуализации. Мы продемонстрировали процесс установки, загрузили образец набора данных и изучили такие функции, как фильтрация, сортировка, статистический анализ, построение графиков, изменение формы и генерация кода.

PandasGUI - это ценный инструмент, который может значительно улучшить ваш рабочий процесс анализа данных, упростив обычные задачи и предложив интерактивный интерфейс. Хотя это значительно облегчает манипулирование данными как новичкам, так и опытным специалистам по обработке данных. Важно отметить, что оно может не поддерживать чрезвычайно сложные операции. Для продвинутых манипуляций, возможно, придется полагаться на традиционные скрипты Pandas.

Статья была взята из этого источника:

0
Комментарии
-3 комментариев
Раскрывать всегда