Олимпиады и другие соревнования по анализу данных и машинному обучению

Как принять участие, как готовиться и что можно выиграть.

В прошлом номере журнала «Системный администратор» вышла статья от Школы программирования CODDY о соревнованиях по data science и machine learning. С разрешения редакции публикуем текст здесь.

Анализ данных (data science) — дисциплина на стыке математики, информатики и статистики, набор методов обработки и анализа информации и применение результатов на практике. Данные не обязательно должны быть большими (big data) — они могут быть любыми, главное — правильно их подготовить и привести к подходящему формату. Машинное обучение — метод обработки данных. С его помощью находят закономерности в массиве информации, чтобы предсказывать будущие показатели.

Специалист по анализу данных имеет фундаментальные знания в математике и информатике, знает алгоритмы, теорию вероятности, математическую статистику и умеет программировать на языках Python или R. Чтобы стать data scientist-ом, желательно получить высшее образование, связанное с математикой или статистикой, и пройти специализированные курсы, а для практики регулярно участвовать в олимпиадах и чемпионатах.

Всероссийская инженерная олимпиада

Олимпиада НТИ организована в рамках программы глобального технологического лидерства России «Национальная Технологическая Инициатива». Всего у Олимпиады 17 профилей, в том числе большие данные и машинное обучение. Олимпиада входит в перечень олимпиад, утвержденных Минобрнауки РФ (проект на 2018-2019 гг.) как мероприятие 3-го уровня и дает льготы для поступления в ведущие вузы.

Победители и призеры Олимпиады НТИ по профилю «большие данные и машинное обучение» поступают без экзаменов в Московский Политехнический Университет, МАИ, Университет ИТМО, МИФИ, Томский Политехнический Университет, НГУ и другие. Но необходимо набрать 75 баллов на ЕГЭ по профильному предмету.

Соревнование проводится в 3 этапа: индивидуальный отборочный, отборочный командный и финал. В первом отборочном этапе ребята разрабатывают программу и алгоритм по обработке данных. В следующем этапе проходят онлайн-курсы, смотрят видеолекции и участвуют в хакатоне очно или удаленно. В прошлом году хакатон НТИ был в МФТИ. В финале участники объединяются в команды и работают с настоящим инженерным оборудованием.

Обычно первый отборочный тур проходит с середины сентября до конца октября, второй — в ноябре-декабре, заключительный — в феврале-марте. Финал прошлой олимпиады проводился в Сочи в лагере Сириус. В этом году старт отборочного первого тура начнется 15 сентября.

Олимпиада рассчитана на учеников 9-11 классов. Для участия необходимо зарегистрироваться на сайте и решить задачи первого этапа. Организаторы ожидают, что ребята будут знать математическую статистику, теорию графов и промышленные языки программирования. Задания не простые. Например, в соревновании 2016-2017 учебного года олимпиадники учили программу анализировать большие объемы текста и определять их связь между собой по стилю письма. Исходными данными были рукописные дневники начала XX-го века.

Организаторы рекомендуют готовиться на портале Stepik.org, на котором размещен бесплатный онлайн-курс подготовки к олимпиаде НТИ на основе заданий прошлых лет. Дополнительно советуют пройти программы по теории вероятности, алгоритмам, теории статистики, дискретным структурам и другим.

International Data Analysis Olympiad

IDAO — Международная олимпиада по анализу данных, которая организована год назад Высшей школой экономики (ВШЭ). Первая олимпиада проходила совместно с компанией Яндекс и испанским Университетом Harbour.Space.

Олимпиада проводится в два этапа: предварительный и заключительный. В первом этапе может принять участие любой желающий, на второй этап приглашают 30 лучших команд. В каждой — от одного до трех человек. Регистрация на олимпиаду ожидается в сентябре 2018 года. Организаторы планируют провести предварительный этап в январе 2019 года, заключительный — в апреле.

Соревнование ориентировано на студентов и недавних выпускников вузов. Перед олимпиадой желательно пройти базовый курс по машинному обучению. Организаторы рекомендуют для подготовки курс на платформе Coursera.org «Как выиграть соревнования по анализу данных», который подготовили преподаватели ВШЭ и члены жюри IDAO. Он рассчитан на пять недель и входит в программу Advanced Machine Learning.

Russian ML Cup

С конца 2015 года работает Russian ML Cup (ML Boot Camp) — чемпионат по машинному обучению от компании Mail.Ru Group. Это онлайн-площадка, на которой два-три раза в год размещаются задачи — контесты. Соревнование рассчитано на опытных специалистов — организаторы ждут участников уровня Middle и Senior. Возрастное ограничение — от 18 лет.

Russian ML Cup проходит удаленно в один этап. После регистрации открывается доступ к условиям задачи, на решение которой отводится месяц. Все задачи практические, например, летом участники прогнозировали отклик аудитории на интернет-опрос.

Победители, как правило, получают ценные призы в виде техники Apple, NVIDIA, My Cloud. Организаторы не скрывают, что, в первую очередь, нацелены на поиск квалифицированных сотрудников. Авторов нестандартных решений приглашают на собеседование в компанию Mail.Ru. За три года деятельности состоялось 15 собеседований.

Организаторы планируют этой осенью запустить собственный курс по обучению на специалиста Data Science. Они также рекомендуют смотреть видео лекции Технострима, или, если вы учитесь в МГУ, поступить в Техносферу на двухгодичную программу «Анализ больших объемов данных».

Яндекс.Алгоритм

Яндекс ежегодно проводит Международный чемпионат по спортивному программированию. С этого года в чемпионат добавился отдельный трек по машинному обучению. Трек проходил в течение месяца и состоял из одной большой задачи, которую придумали разработчики голосового помощника Алиса.

В чемпионате могут участвовать ребята от 6 лет, в финале — только совершеннолетние. Регистрация открыта все время до завершения трека по машинному обучению. В 2018 году призовой фонд трека составил 220 тысяч рублей.

У компании нет специального курса для подготовки к чемпионату, но Яндекс учит перспективному направлению в собственной Школе анализа данных (ШАД). Филиалы ШАД открыты в четырех городах: Москве, Минске, Нижнем Новгороде и Екатеринбурге. Обучение идет два года. Для поступления необходимо пройти три этапа: пятичасовой онлайн-тест, очный экзамен и собеседование. Набор ограничен и проводится раз в год. В качестве альтернативы советуем пройти на платформе Coursera онлайн-программу, разработанную Яндексом совместно с МФТИ.

Соревновательная площадка Kaggle

Kaggle — платформа корпорации Google для проведения соревнований по машинному обучению и анализу данных. Организаторами выступают Google, Intel, Mercedes-Benz, Allstate и другие компании. Каждый организатор самостоятельно определяет критерии оценки, сроки и призы. Обычно на платформе проводится до 20 соревнований одновременно.

Чтобы принять участие, необходимо зарегистрироваться на платформе и выбрать соревнование из перечня. Отборочного этапа нет, поэтому участники сразу получают основное задание. Как правило, каждое соревнование идет два-три месяца. Победители получают денежные призы в размере от 15 до 100 тысяч долларов.

Для подготовки на платформе есть обучающий раздел с бесплатными материалами по направлениям: Python, Pandas, SQL, язык R, глубокое обучение, анализ данных и представление данных. Дополнительно советуем пройти бесплатный интенсив от Google по машинному обучению, состоящий из 25 уроков.

Чемпионат KDD CUP

KDD CUP — Международное соревнование по машинному обучению и анализу данных, которое проводится под эгидой Ассоциации вычислительной техники (ACM). В кубке KDD участвуют командами до 10 человек. После регистрации на сайте необходимо присоединиться к одной из команд.

В качестве основного задания организаторы выбирают общественно значимую проблему. Так, в 2018 году Кубок проходил совместно с Colorful Clouds Tech — компанией по прогнозированию погоды. Участники предсказывали уровень концентрации загрязнений в Пекине и Лондоне. Им предоставили данные о количестве вредных веществ в прошлом, на основании которых они должны были спрогнозировать, какой будет воздух в течение следующих 48 часов.

Соревнование проходило почти три месяца и закончилось в начале июня. Призовой фонд составил 36 тысяч долларов. Победители очно презентуют решения на kdd CUP workshop в Лондоне.

Стать Data Science специалистом может любой желающий. Открытые образовательные платформы Coursera, Stepic и IT-гиганты Google, Яндекс, Mail.Ru бесплатно обучают по программе «Анализ данных и машинное обучение». Для тренировки на практике рекомендуем участвовать в олимпиадах и соревнованиях. Это даст практический опыт, а в случае победы еще и принесет солидное материальное вознаграждение.

44
Начать дискуссию