» Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров
чуть более развернуто
в мире Big Data (обработки больших массивов информации) можно отметить следующие события, которые очень сильно повлияли на развитие open source фреймворков, сообществ и изменили стандарты хранения и обработки данных: * 2003-2004, статьи Google про распределенные файловые системы и MapReduce * 2006, Yahoo! публикует open source реализацию Hadoop * 2009, MapReduce и Hadoop доступны даже в облаках (AWS) * 2010, Hive - (Big Data) SQL для работы с MapReduce * 2012, появление YARN - новые пределы масштабируемости кластеров + возможности считать данные прилично быстрее в других парадигмах (например с помощью Spark, сильно больше нагружая оперативную память) * 2014, появление raft - понятный и удобный алгоритм, чтобы договориться кто на кластере "главный" / "папа" / "первый" * дальше все вширь и врозь, появляется много чего интересного, но мне сложно выделить что-либо ставшее стандартом хранения или обработки данных (форматы данных, SQL/NoSQL БД, стриминговые фреймворки, хотя в последней группе явно лидирует Kafka, которая появилась в 2011-м году) * 2023, Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров (данных настолько много, что даже информацию о файлах в системе нужно хранить с приседаниями, то есть на разных компьютерах в распределенном режиме = шардирование).
Бонусом YT привносит новый стандарт для удобной работы с метаинформацией и распределенными таблицам данных (распределенные транзакции, распределенный ACID). Другие подходы на рынке уже были, но в статье я описываю сложности выбора стандарта в текущем Hadoop (см. ASF), а наработки Yandex могут сподвигнуть всю индустрию учесть их опыт.
Ничего непонятно, но очень интересно.
попробую в формате tl;dr
» Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров
чуть более развернуто
в мире Big Data (обработки больших массивов информации) можно отметить следующие события, которые очень сильно повлияли на развитие open source фреймворков, сообществ и изменили стандарты хранения и обработки данных:
* 2003-2004, статьи Google про распределенные файловые системы и MapReduce
* 2006, Yahoo! публикует open source реализацию Hadoop
* 2009, MapReduce и Hadoop доступны даже в облаках (AWS)
* 2010, Hive - (Big Data) SQL для работы с MapReduce
* 2012, появление YARN - новые пределы масштабируемости кластеров + возможности считать данные прилично быстрее в других парадигмах (например с помощью Spark, сильно больше нагружая оперативную память)
* 2014, появление raft - понятный и удобный алгоритм, чтобы договориться кто на кластере "главный" / "папа" / "первый"
* дальше все вширь и врозь, появляется много чего интересного, но мне сложно выделить что-либо ставшее стандартом хранения или обработки данных (форматы данных, SQL/NoSQL БД, стриминговые фреймворки, хотя в последней группе явно лидирует Kafka, которая появилась в 2011-м году)
* 2023, Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров (данных настолько много, что даже информацию о файлах в системе нужно хранить с приседаниями, то есть на разных компьютерах в распределенном режиме = шардирование).
Бонусом YT привносит новый стандарт для удобной работы с метаинформацией и распределенными таблицам данных (распределенные транзакции, распределенный ACID). Другие подходы на рынке уже были, но в статье я описываю сложности выбора стандарта в текущем Hadoop (см. ASF), а наработки Yandex могут сподвигнуть всю индустрию учесть их опыт.
Реально)