Как видим, нам пришлось для каждого пола создавать отдельный dataframe и соединять их через функцию concat(). Но будь у нас не 2 группы, как сейчас, а больше, это могло бы вызвать некоторые трудности в реализации. В то же время, запрос через PandaSQL работал бы так же, будь у нас и большее количество полей для группировки.
Лайк! Панды рулят!
Спасибо за статью. Весьма кстати
Спасибо за позитивную обратную связь, всегда рады помочь!
Дак в pandas есть read_sql, куда тоже можно засунуть этот запрос query и передать коннекшн. А так сравниваете чтение csv и последующую обработку и из sql таблицы. Вообще не понятно такое сравнение и польза от данной библиотеки
Мало ты работал с pandas.
Статья очень полезная
Я так понял, что тут ты можешь писать sql запросы к датафреймам, а read_sql из базы
В pandas можно сделать проще.
Реализация рассчитана на любое количество групп.
df = df.sort_values(['Genre', 'Spending Score (1-100)'])
b = [df[df.Genre == i].iloc[-7:, [2,3]].mean().values for i in df.Genre.unique()]
pd.DataFrame(b, index = pd.Index(df.Genre.unique(), name='Пол'), columns=['Средний возраст', 'Средний годовой доход'])