Кто кого: Pandas VS SQL

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL, как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и примерно в 2012 году стала стремительно набирать популярность Python-библиотека Pandas. И вот сегодня уже сложно представить работу Data Scientist’а без данного модуля.

99

Pandas’у необходимо время для сохранения датасета в объект типа DataFrame

А что там с требуемыми вычислительными ресурсами? Сдаётся мне Pandas потребует колоссальное количество оперативки там где MySQL будет вполне сносно работать на очень скромном железе.

3
Ответить
Автор

Если посредством MySQL вы лишь обращаетесь к базам данных, то сам запрос обрабатывается СУБД, и вам предоставляется только готовый результат. Поэтому сравнивать затраты оперативной памяти не совсем корректно. Но, если не брать в расчёт все затраты СУБД на все операции, то вы правы.
Но помимо самого запроса, данные, обёрнутые в Pandas Dataframe. можно использовать в Python, изменить их и ообратиться снова, как к самой обычной таблице, без сохранения её обратно в БД. В этом заключается основное преимущество Pandas над работой через СУБД.

Ответить
Автор

Уточним у автора и вернемся с ответом :)

Ответить