Data-science без мифов: чему учиться, чтобы работать в лучших компаниях
Учебные проекты часто создают иллюзию, что работа с данными — это простые ETL-пайплайны и аккуратные базы. В реальности всё сложнее: терабайты информации, грязные записи, автоматизация и непрерывный мониторинг. Если вы хотите узнать эту работу изнутри, приходите на эфир «Реальные задачи инженера данных: профессия без мифов». Расскажем, с чем сталкиваются специалисты в реальности и какие инструменты стали стандартами в профессии.
Когда: 24 марта в 18:00 мск
Кто говорит: Анатолий Карпов, CEO karpov. courses, экс-ведущий аналитик VK, и Николай Валиотти, специалист по работе с данными, предприниматель, СЕО и основатель дата-консалтинга LEFT JOIN.
Эфир продлится около часа, в интерактивном формате с вопросами и ответами. Обсудим несколько тем.
СУБД: оптимизация запросов в больших базах
В учебных кейсах используют небольшие таблицы, которые легко обработать даже базовым SQL-запросом. На практике инженеры данных имеют дело с многотерабайтными хранилищами. Чтобы работать с ними эффективно, важно понимать, чем реляционные СУБД (PostgreSQL) отличаются от MPP-систем (ClickHouse, BigQuery). Например, в беттинг-сервисах ClickHouse обрабатывает потоки данных в реальном
ETL: автоматизация и мониторинг
В учебных проектах ETL-пайплайны — цепочка из пары шагов. В реальных компаниях — это сложные системы с алертами, ретраями и мониторингом. Apache Airflow стал стандартом для оркестрации: он отслеживает выполнение задач, автоматически перезапускает упавшие процессы и присылает уведомления об ошибках. Расскажем, как разобраться в чужом ETL-процессе и оптимизировать его.
DWH: хранилища данных под бизнес-задачи
Проектирование DWH — не просто создание таблиц. В реальных проектах инженеры работают с грязными, историческими и неструктурированными данными. Объясняем, почему BigQuery стал выбором медицинских компаний, игрового бизнеса и телекома.
BI: интеграция и настройка
Дата-инженеры не создают отчеты, но настраивают интеграцию BI-инструментов с DWH. Их задача — оптимизировать подключение датасорсов, чтобы аналитики могли быстро строить отчёты. Понимание BI помогает инженерам лучше взаимодействовать с командой, делая аналитические инструменты удобнее.
Управление данными: доступы и безопасность
В учебных проектах безопасность редко затрагивается, но в реальности контроль доступа — критически важная часть работы. Инженеры разграничивают уровни доступа: маркетинг и финансы, например, не должны видеть одни и те же данные. Они также оптимизируют запросы, чтобы уменьшить нагрузку на системы.
Если хотите стать успешным дата-инженером, важно осваивать не абстрактную теорию, а реальные инструменты: PostgreSQL, ClickHouse, Airflow, BigQuery и BI. Именно так мы обучаем в программе Karpov Courses и LEFT JOIN — с фокусом на практику.
У всех слушателей эфира есть возможность не только пройти обучение со скидкой, но и устроиться на позицию Middle Data Engineer в компанию LEFT JOIN. Встречаемся 24 марта в нашем телеграм-канале!