Ничего непонятно, но очень интересно. — Слегка Придурковатый на vc.ru

Алексей Драль

Мнения

22.03.2023

Почему мир Big Data запомнит 20.03.2023

Заскринил момент, когда на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fgithub.com%2Fytsaurus%2Fytsaurus&postId=640768" rel="nofollow noreferrer noopener" target="_blank">GitHub проекта</a> было еще меньше 100 звездочек

3636

Слегка Придурковатый

22.03.2023

Ничего непонятно, но очень интересно.

Ответить

Алексей Драль

22.03.2023

Автор

попробую в формате tl;dr

» Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров

чуть более развернуто

в мире Big Data (обработки больших массивов информации) можно отметить следующие события, которые очень сильно повлияли на развитие open source фреймворков, сообществ и изменили стандарты хранения и обработки данных:
* 2003-2004, статьи Google про распределенные файловые системы и MapReduce
* 2006, Yahoo! публикует open source реализацию Hadoop
* 2009, MapReduce и Hadoop доступны даже в облаках (AWS)
* 2010, Hive - (Big Data) SQL для работы с MapReduce
* 2012, появление YARN - новые пределы масштабируемости кластеров + возможности считать данные прилично быстрее в других парадигмах (например с помощью Spark, сильно больше нагружая оперативную память)
* 2014, появление raft - понятный и удобный алгоритм, чтобы договориться кто на кластере "главный" / "папа" / "первый"
* дальше все вширь и врозь, появляется много чего интересного, но мне сложно выделить что-либо ставшее стандартом хранения или обработки данных (форматы данных, SQL/NoSQL БД, стриминговые фреймворки, хотя в последней группе явно лидирует Kafka, которая появилась в 2011-м году)
* 2023, Яндекс публикует движок, в котором очень хорошо продумали основу для еще большего масштабирования кластеров (данных настолько много, что даже информацию о файлах в системе нужно хранить с приседаниями, то есть на разных компьютерах в распределенном режиме = шардирование).

Бонусом YT привносит новый стандарт для удобной работы с метаинформацией и распределенными таблицам данных (распределенные транзакции, распределенный ACID). Другие подходы на рынке уже были, но в статье я описываю сложности выбора стандарта в текущем Hadoop (см. ASF), а наработки Yandex могут сподвигнуть всю индустрию учесть их опыт.

Реально)