Мощные утилиты Python для анализа данных
В этой статье я предоставляю пошаговое руководство по некоторым очень полезным утилитам Python для анализа и управления данными. В примерах этой статьи используются данные из датафрейма компаний S&P 500, которые я сохранил в файле pickle.
Понимание основных характеристик данных Python
В данной части кода, я знакомлюсь с высокоуровневыми данными:
Проверьте, существует ли столбец или набор столбцов, используя функцию Python
Здесь я использую ‘subset’ и ‘if in’ для данной цели.
Проверьте, есть ли текущая цена менее 6 долларов
Здесь я проверяю, есть ли у какой-либо компании S&P 500 текущая цена меньше $6. Код выводит объект Series со значением True или False.
Теперь я применяю функцию any(), чтобы проверить, является ли какой-либо один элемент в приведённом выше результате истинным:
any(result)
True
Мне любопытно, какую компанию мы увидим в результате!
Проверьте, является ли объект итеративным
Как я отмечал в приведённом выше разделе, результат должен быть повторяемым для применения функции any(). В результате получается тип Series. Но как проверить, является ли ряд итеративным? Используйте блок try/except для перехвата исключения:
Создайте список текущих цен, превышающих 1000 долларов
Я использую понимание списка вместо зацикливания, чтобы код был коротким и чистым:
Создайте строку из всех секторов, раздёленных запятыми
Я использую функцию join() вместо цикла, чтобы код был коротким и чистым.
Подсчитайте входящие элементы
Я показываю один из многих способов отслеживания частот элементов, используя коллекцию модуля класса Counter.
Перечислите отрасли в виде списка по областям
Я объединяю список отраслей по каждой области в виде столбца. Преобразование списка в набор предназначено для устранения дубликатов.
Проверка типа любого элемента в столбце "industry":
Разрыв колонки, содержащей набор отраслей
Это почти обратный процесс того, чего мы реализовывали выше. Но он использует функцию Датафрейма explode().
Преобразование столбцов в строки на Python
Я преобразую значения столбца цен в виде отдельных строк, используя функцию melt().
Позвольте мне сначала создать фрейм данных меньшего размера без столбцов сектора и цены, чтобы проиллюстрировать это:
Просмотрите все ценовые рекорды на Apple:
Разбейте текущие цены на равное количество наблюдений
Для этого я использую функцию pandas qcut(). Здесь ячейки непрерывны, и они содержат точно такое же количество наблюдений:
pd.qcut(df['currentPrice'], 10).value_counts()
Разбейте текущие цены на дискретные интервалы
Для этого я использую функцию pandas cut():
pd.cut(df['currentPrice'], bins=[0, 100, 200, 300, 500, 1000, 3000, 5000, 10000]).value_counts()
Заключение
Когда вы попробуете каждую из этих функций, вы обнаружите, насколько мощным является язык программирования Python, если дело доходит до задач с анализом данных.
Статья была взята из следующего источника: