Опустив пяток других компаний и лет, я открыл компанию (BigData Team) по обучению и консалтингу в сфере Big Data, Machine Learning и промышленной разработке (на Python). Из крупных и приятных проектов, в 2017-м году мы запустили курсы по Big Data на английском языке на Coursera при партнерстве с Яндекс. Наша цель была амбициозна и проста - доказать всему миру, что русские "шарят" в Big Data и могут делать крутые (образовательные) продукты. Отдельная история длиною в год, как мы это делали компанией на 30+ человек. Ровно эта задача (при поддержке ABBYY, Yandex, 1C, друзей и какой-то матери) заставила меня вернуться в РФ с горящими глазами.
Ничего непонятно, но очень интересно.
попробую в формате tl;dr
» Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров
чуть более развернуто
в мире Big Data (обработки больших массивов информации) можно отметить следующие события, которые очень сильно повлияли на развитие open source фреймворков, сообществ и изменили стандарты хранения и обработки данных:
* 2003-2004, статьи Google про распределенные файловые системы и MapReduce
* 2006, Yahoo! публикует open source реализацию Hadoop
* 2009, MapReduce и Hadoop доступны даже в облаках (AWS)
* 2010, Hive - (Big Data) SQL для работы с MapReduce
* 2012, появление YARN - новые пределы масштабируемости кластеров + возможности считать данные прилично быстрее в других парадигмах (например с помощью Spark, сильно больше нагружая оперативную память)
* 2014, появление raft - понятный и удобный алгоритм, чтобы договориться кто на кластере "главный" / "папа" / "первый"
* дальше все вширь и врозь, появляется много чего интересного, но мне сложно выделить что-либо ставшее стандартом хранения или обработки данных (форматы данных, SQL/NoSQL БД, стриминговые фреймворки, хотя в последней группе явно лидирует Kafka, которая появилась в 2011-м году)
* 2023, Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров (данных настолько много, что даже информацию о файлах в системе нужно хранить с приседаниями, то есть на разных компьютерах в распределенном режиме = шардирование).
Бонусом YT привносит новый стандарт для удобной работы с метаинформацией и распределенными таблицам данных (распределенные транзакции, распределенный ACID). Другие подходы на рынке уже были, но в статье я описываю сложности выбора стандарта в текущем Hadoop (см. ASF), а наработки Yandex могут сподвигнуть всю индустрию учесть их опыт.
Реально)
Имхо такое хорошо зайдёт/зашло на хабре
Для меня тупорылого гуманитария это что-то на испанском
Прочитал, ничего не понял. О чем статья, для кого, какая основная мысль тоже не понял. Видимо я тупой
ладно, пускай Big Data запоминает 20 марта по каким-либо причинам, для меня 20 марта это день весеннего равноденствия