Как стать Data Engineer в 2026: честный roadmap от стажёра до мидла

Рынок дата-инженеров растёт. Но устроиться с нуля стало сложнее. Подготовил максимально подробный roadmap с ссылками на материалы и зарплатными вилками каждого грейда.

Как стать Data Engineer в 2026: честный roadmap от стажёра до мидла

Меня зовут Артём Подвальный, я Data Engineer в Ozon Tech — готовлю данные для обучения моделей поиска. До этого работал в SMLab, команда персональных рекомендаций.

Год назад я написал этот роадмап для Хабра. Сейчас перечитал и переосмыслил.

Рынок сместился в сторону мидлов. Стажировок немного, джуновых вакансий — тоже не избыток. Работодатели ждут реального опыта и рабочих кейсов. Голая теория и пройденные курсы почти не работают.

Это не повод не входить. Это повод действовать умнее. Можно годами хаотично читать статьи и смотреть ютуб-туториалы. А можно — понять, чего ожидает работодатель, какие инструменты реально нужны, и уметь их применять. Тогда путь от нуля до оффера становится заметно короче. Именно об этом обновлённый текст ниже.

Стажер

От стажёра никто не ждёт знания всех тонкостей — пайплайнов, стриминга, хранилищ. Но вот проблема: вакансий для стажёров мало, желающих — всё больше. Среди них победители хакатонов, студенты сильных вузов, люди с уже каким-то опытом.

Пробиться реально. Но придётся постараться.

На этом уровне важно базовое понимание того, как устроены базы данных — какие вообще бывают, чем отличаются, что внутри. Не нужно знать всё глубоко, но ориентироваться — обязательно.

1. SQL + Python — начинаем здесь

Стартуй с них параллельно. SQL — потому что 90% задач дата-инженера завязаны на запросы к данным. Python — потому что это основной язык для пайплайнов, скриптов и автоматизации.

По Python: базовый синтаксис, типы данных (списки, словари), циклы, функции, основы ООП. Подтянуть эти знания поможет курс «Продвинутое программирование на Python». Плюс ко всему необходимо умение писать простенькие алгоритмы, знать основы структур данных. С этим хорошо поможет курс «Алгоритмы и структуры данных — Sem_1» , советую эти лекции Хирьянова и задачи уровня medium на Leetcode.

По SQL: уметь уверенно использовать SELECT, WHERE, GROUP BY, ORDER BY, простые JOIN'ы, агрегирующие функции (COUNT, SUM, MAX/MIN). Поможет интерактивный тренажёр с теорией от Stepik.

2. Принципы реляционных СУБД

Стажёр должен понимать, какие вообще бывают базы данных, как они называются и зачем нужны. Что такое таблицы, индексы, первичные и внешние ключи, ACID, нормальные формы. Почему оптимизация запросов так важна. Кратко тут — «Введение в базы данных».

3. Git — сразу после первых строчек кода

Как только начал писать код — сразу учи Git. Базовые операции: init, add, commit, push, pull, branch, merge. На любом собеседовании это само собой разумеющееся.

4. Linux / Terminal

Дата-инженер работает в Linux-окружении. Базовые команды навигации, работа с файлами, права доступа, переменные окружения, bash-скрипты на уровне «написать простой cron». Без этого не запустишь ни один инструмент дальше по стеку.

Много стажёрских вакансий выкладывается на каналах Data Engineer Работа Вакансии и Data Engineer Jobs. Смотри на сайтах крупных компаний, бигтехов, банков — там зачастую круглогодичный набор, и hh.ru тоже мониторь регулярно.

Вилка стажеров: 80-100к

Джун

Чтобы выйти на уровень джуна, нужно чуть больше, чем знание синтаксиса. Хорошо, если за плечами есть пара хакатонов, пет-проект или стажировка — всё, что показывает: ты не просто учился, а реально что-то делал руками.

Для меня таким опытом стала лаборатория по работе с человеческими геномами при МФТИ, где я писал пайплайны для обработки данных ДНК. Впервые столкнулся с реальными терабайтами, сложными форматами, специфичными инструментами — и понял, что дата-инженерия это то, что мне действительно интересно.

На этом уровне ждут более уверенного Python и SQL, базового понимания Spark и инструментов Big Data, а главное — пет-проекта с реальным пайплайном.

1. Расширенный SQL

К этому моменту SQL должен стать увереннее:

• Оконные функции: OVER, PARTITION BY, RANK, ROW_NUMBER

• CTE и подзапросы

• Типы джойнов под капотом: Nested Loop, Hash Join, Merge Join — и понимание различий — «Что такое merge join, hash join и nested loop с примером на PostgreSQL»

• Умение читать EXPLAIN-план

• Принципиальные отличия реляционных и нереляционных (NoSQL) баз — «Виды баз данных. Большой обзор типов СУБД» / Хабр

2. DWH / Data Lake / Lakehouse + моделирование данных

Без понимания, куда и зачем льются данные, все дальнейшие инструменты будут изучаться вслепую.

Нужно понимать: чем отличается Data Warehouse от Data Lake и Lakehouse, что такое нормальные формы, как работают индексы и партиции, что такое SCD (особенно SCD2), концепции Инмона, Кимбэлла, Data Vault.

3. Docker

Docker идёт после Linux и базового Python/SQL, но до Hadoop и Airflow. Большинство инструментов дальше поднимаются именно в контейнерах. Нужно уметь: написать Dockerfile, поднять docker-compose, понимать образы, тома, сети.

4. Hadoop

MapReduce, HDFS — что это такое, почему появилось, как работает. На джуне достаточно понимать концепцию: map, reduce, shuffle, что такое распределённое хранилище. Это фундамент для Spark, который идёт позже.

5. Airflow — после Python, SQL, Docker и Linux

Airflow — самый популярный инструмент для автоматизации пайплайнов. Требует понимания Python (DAG — это Python-код), Linux и Docker. На джуне: DAG, операторы, сенсоры, базовое понимание планировщика.

6. Пет-проект — опыт без работы в Data Engineering

Один грамотный пет-проект закрывает сразу несколько вопросов на собеседовании. Важно не чтобы он был сложным — важно, чтобы там был реальный пайплайн: источник данных, обработка, хранение, оркестрация.

Данные берутся из открытых источников, на них строится что-то осмысленное — аналитическая витрина, дашборд, простой ETL. Покажи, что ты не только «прочитал теорию», но и применял на практике.

Вилка для джунов: 150-200к

Полезные ресурсы для стажёров и джунов

Telegram-каналы:

Data Engineer LAB — краткие обзоры инструментов дата-инженера с ссылками на первоисточники и фокусом на то, что спрашивают на собеседованиях.

Get Rejected — автор канала прошёл 100+ собеседований по Data Engineering, раскрыл вилки по всем компаниям, собеседуется за рубежом. Хороший канал чтобы быть в курсе реальных вилок на рынке.

Databases Secrets — фокус на базы данных: реляционные, NoSQL и всё, что с ними связано. Часто публикуют разъяснения нюансов оптимизации запросов и внутренних механизмов СУБД.

Data Events — главный канал ивентов по DE.

Data Engineering Digest — выжимки с докладов и их обсуждения.

Инженерия Данных — теория, собес-задачи, пайплайны, архитектура и прикладной SQL.

Почему полгода курсов не работают

Большинство учится методом проб и ошибок: берут первый попавшийся курс, проходят до середины, бросают, берут следующий. Месяцы идут, резюме пустое. Один грамотный пет-проект с реальным пайплайном даёт больше, чем полгода таких метаний. Работодателю важен не масштаб, а то, что ты понимаешь, что делаешь.

Ускорить этот путь реально — если рядом есть кто-то, кто уже прошёл его и знает, где новичок теряет месяцы впустую. Не онлайн-курс, а живая обратная связь на твоих задачах.

Мидл

Мидл — это уже более серьёзный уровень. Ожидается, что ты можешь уверенно вести проект, оптимизировать запросы и пайплайны, а не просто делать, как умеешь.

Мой путь от джуна до мидла оказался довольно стремительным — во многом благодаря опыту в SMLab. Там мне с самого начала доверили разные задачи, и я быстро «нащупал» руками мир дата-инженерии. Уже первой моей задачей было спроектировать сбор логов рекомендательной системы и построить аналитическую витрину. Для новичка — это был настоящий челлендж. Но именно этот проект дал мне возможность погрузиться в работу с кучей реальных инструментов и получить первую уверенность в профессии.

Есть негласное деление на сильного и слабого мидла. Отличие в глубине знаний и в зарплатной вилке. Плюс в том, что на среднего мидла можно устроиться минуя Джуна и даже стажировки, как раз с этим я помогаю своим ученикам.

Ниже — наиболее распространённые требования к мидлу. Конкретный набор зависит от компании: в одних важен ClickHouse, в других Spark. Ориентируйся на вакансии туда, куда хочешь попасть.

1. Алгоритмы и структуры данных

Аналогично джуну — собеседования часто включают алгоритмические задачи уровня Medium, потому что сложные пайплайны требуют понимания вычислительной сложности.

2. Продвинутый SQL

Многослойные запросы с оконными функциями, CTE, подзапросами. Оптимизация: изучай планы выполнения, собирай статистику, экспериментируй с индексами.

StrataScratch — отличный форум, чтобы прокачать SQL за счёт задач от топовых IT-компаний.

3. HDFS и MapReduce

Понимай механику MapReduce: что такое map, reduce, shuffle, combiner. Arenadata HDFS-документация для более детального разбора устройства.

4. Оптимизация в реляционных СУБД

Знать физические планы выполнения: Nested Loop, Hash Join, Merge Join. Подборка статей по оптимизации — Как оптимизировать SQL-запросы для СУБД | AppMaster, Как оптимизировать SQL-запросы для снижения нагрузки на БД.

5. Spark

Почему Spark быстрее MapReduce, что такое драйвер и экзекьюторы. Архитектура: RDD, DataFrame API, Dataset API, broadcast, shuffle, Catalyst Optimizer. Хорошее объяснение — в этой статье. В этом туториале мы с коллегами постарались расписать всё, что нужно знать по Спарк, что спрашивают на собеседованиях.

В Ozon Tech мы постоянно используем Spark для задач агрегации данных из различных источников — ClickHouse, Vertica и др. Для федеративных запросов поверх нескольких источников всё чаще используют Trino [ссылка].

6. Kafka

Как устроены партиции, репликация, consumer groups. Почему Kafka такая надёжная и масштабируемая система? Вот хорошая статья — «Apache Kafka: основы технологии».

7. Оркестраторы

Airflow: создание сложных DAG’ов, написание кастомных операторов, работа с несколькими типами сенсоров — хорошо поясняется тут

8. Слои хранения данных

Data Lake, Data Mart, DWH, витрины и зачем они нужны. Концепции Инмона, Кимбэлла, Data Vault — основные подходы к проектированию хранилищ.

Понимать, что такое SCD (особенно SCD2), как хранить медленно меняющиеся измерения.

9. NoSQL-базы данных

Документоориентированные базы (MongoDB), колоночные (ClickHouse, Vertica), key-value (Redis). В последнее время стало появляться всё больше вакансий, требующих понимания ClickHouse, поэтому хорошо бы представлять, как устроена эта СУБД, в чем особенности хранения данных, какие движки использует, как они работают, что такое мутации, разрежённые индексы и прочее.

10. Современный стек

Обязательно быть знакомым с актуальными инструментами и архитектурами:

Apache Iceberg — открытый табличный формат, вытесняющий Hive-таблицы

Trino — для федеративных запросов поверх нескольких источников

dbt — трансформация данных внутри хранилища: модели, тесты, lineage, materialization

OpenMetadata — каталог данных: дата-линейдж, документация, классификация, контроль качества

Вилка: ~200–230к

Сильный мидл — знает стек глубоко

Сильный мидл умеет не просто применять инструменты, а оптимизировать. Это более глубокий уровень понимания того же стека — и другая ответственность.

Разница не в количестве инструментов, а в глубине. Сильный мидл понимает, почему запрос работает именно так, как бороться со shuffle в Spark, как выбрать движок таблицы в ClickHouse под конкретную задачу.

SQL — глубокая оптимизация

Не просто писать многослойные запросы, а понимать, почему они работают именно так. Работа с планами выполнения, партиционирование, тонкая настройка индексов.

Spark — уметь оптимизировать

Уверенная работа с DataFrame API, понимание как бороться со shuffle и data skew. Знать не только что такое Catalyst Optimizer, но и как влиять на его поведение.

ClickHouse / Greenplum — оптимизация

Глубокое понимание движков таблиц, разреженных индексов, мутаций, партиционирования. Greenplum — MPP-база на основе PostgreSQL, часто встречается в enterprise. Apache Iceberg [ссылка] — знать не только что это, но и когда и зачем применять.

Kafka — углубленно

Retention-политики, exactly-once semantics, работа с consumer lag — не на уровне «слышал», а на уровне настройки в продакшене.

dbt и OpenMetadata — углублённо

dbt: инкрементальные материализации, макросы, пакеты. OpenMetadata: не просто знаком, а понимает как выстраивать дата-линейдж и контроль качества данных.

Airflow на KubernetesExecutor, Spark on Kubernetes — уже стандарт в крупных компаниях. Хорошо ложится на фундамент Docker, заложенный ещё на джуне.

Вилка: ~250 к +

Итог

Data Engineering в 2026 — одна из самых востребованных специальностей в IT. Без дата-инженеров не работает ни аналитика, ни ML, ни продуктовые метрики. Порог входа вырос, но путь понятен.

Главное — не хвататься за всё сразу. SQL и Python сначала, потом всё остальное.

Если хочешь пройти этот путь не в одиночку — я веду Telegram-канал 👉 Data Engineer LAB, где разбираю инструменты, делюсь тем, что реально спрашивают на собеседованиях, и занимаюсь менторством. 15 моих учеников уже устроились за 2025 году.

А что стало первым реальным проектом в твоём резюме — хакатон, пет-проект, стажировка? Интересно в комментах.

7
4 комментария