Ищем аналоги для pandas в Java
Пришло время познакомиться с удобным способом обработки больших данных на манер pandas, а именно – с joinery.
Для начала работы нужно создать новый maven проект и добавить в pom.xml всё необходимое для работы с joinery:
1. Прописываем дополнительный maven репозиторий. Именно в нём находится артефакт joinery
2. Прописываем joinery и все другие зависимости проекта
Перезагружаем maven проект для того, чтобы он сделал всю работу по загрузке необходимых артефактов. Скачиваем какой-нибудь датасет для работы с ним (в моём случае — это перечень возможных поселенцев на острове игрока из Animal Crossing) и переходим к написанию непосредственно кода.
Прежде чем начать как-то работать с данными, нужно их загрузить. С помощью joinery это делается следующим способом:
И сразу выведем загруженные данные в консоль
Уже можно запустить этот код и увидеть в консоли примерно следующее:
Теперь, когда данные загружены, попробуем произвести несколько операций с ними:
Т.к. это скорее обзорная статья, а не исчерпывающее руководство, с другими операциями над данными предлагается ознакомиться самостоятельно на страницах документации.
В заключение хочется напомнить, что для каждой задачи желательно использовать подходящий инструмент. Так, например, при работе с умеренно большими данными вполне хватит связки python и pandas, но, если данных становится слишком много, а вопрос произвольности встаёт всё острее – использовать Java будет не такой уж и плохой идеей. Тем более, что в ней имеются все те же инструменты с одним из которых мы сейчас и познакомились.