Наиболее популярными инструментами для сбора и обработки больших данных являются Hadoop MapReduce и Apache Spark. Оба этих инструмента имеют свои плюсы и минусы, однако в данной статье мы будем рассматривать Apache Spark, в частности библиотеку для python PySpark.