Разумеется я сравнивал потребление памяти всей системы, включая СУБД. MySQL для построения выборок…

07.11.2022

Кто кого: Pandas VS SQL

Еще порядка 10 лет назад для работы по исследованию данных было достаточно SQL, как инструмента для выборки данных и формирования отчетов по ним. Но время не стоит на месте, и примерно в 2012 году стала стремительно набирать популярность Python-библиотека Pandas. И вот сегодня уже сложно представить работу Data Scientist’а без данного модуля.

Alexander

07.11.2022

Pandas’у необходимо время для сохранения датасета в объект типа DataFrame

А что там с требуемыми вычислительными ресурсами? Сдаётся мне Pandas потребует колоссальное количество оперативки там где MySQL будет вполне сносно работать на очень скромном железе.

Ответить

NTA

09.11.2022

Автор

Если посредством MySQL вы лишь обращаетесь к базам данных, то сам запрос обрабатывается СУБД, и вам предоставляется только готовый результат. Поэтому сравнивать затраты оперативной памяти не совсем корректно. Но, если не брать в расчёт все затраты СУБД на все операции, то вы правы.
Но помимо самого запроса, данные, обёрнутые в Pandas Dataframe. можно использовать в Python, изменить их и ообратиться снова, как к самой обычной таблице, без сохранения её обратно в БД. В этом заключается основное преимущество Pandas над работой через СУБД.

Ответить

NTA

08.11.2022

Автор

Уточним у автора и вернемся с ответом :)

Ответить