Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии
Гуманитарий vs. технарь
В детстве я побаивалась математики и всего технического, но, пройдя путь от филолога до NLP-инженера, поняла, что разделение «гуманитарий vs. технарь» искусственно. Поэтому, если в школе у вас было плохо с точными науками, не нужно сейчас их бояться. Возможно, вам их просто плохо преподавали.
Если вы сомневаетесь, стоит ли идти в IT, попробуйте понять, в чем причина ваших сомнений. Если останавливает только то, что вы девушка и/или «гуманитарий», то отбрасывайте эти предрассудки и пробуйте себя. Ни пол, ни успехи в гуманитарных науках на технические способности не влияют. Если вы просто не знаете, ваше ли это вообще, то постарайтесь разобраться, какие профессии бывают в IT и что из этого вам хотелось бы делать. Если единственная мотивация развиваться в этом направлении — «в IT много денег», то это не поможет стать хорошим специалистом.
Меня постоянно поддерживало то, что мне это было интересно. Иногда возникали опасения, что у меня недостаточно бэкграунда, чтобы стать хорошим IT-специалистом, и однажды меня «раскусят» и с позором выгонят отовсюду, но фидбэк от преподавателей и публикации после выступлений на конференциях добавляли уверенности.
От кельтолога до компьютерного лингвиста
В какой-то мере весь мой путь в Data Science — череда случайностей. В 2010 году я поступила на филфак МГУ и переехала из Челябинска в Москву. На пятом курсе я начала подрабатывать на удалёнке парт-тайм в «Лаборатории Касперского» веб-аналитиком. Для этого не были нужны никакие технические навыки. Я занималась анализом датского веб-контента, поэтому всё, что от меня требовалось — это знание языка. Чем дольше я работала, тем больше мне нравилось IT и атмосфера компании. Так я решила, что хочу дальше развиваться в этой сфере.
Закончив МГУ, я поступила в магистратуру НИУ ВШЭ «Компьютерная лингвистика» (она же Natural Language Processing, или NLP), чтобы иметь возможность изучать программирование и математику, но при этом работать с текстами. Всё это время я продолжала работать в «Лаборатории Касперского» над продуктом для родительского контроля «Kaspersky Safe Kids». Мы занимались контент-фильтрацией — одной из задач Data Science. Собственно на работе я и узнала про эту область.
В 2017 году я закончила магистратуру и осталась преподавать в университете. Вскоре пришлось сделать выбор: индустрия или академия. Я остановилась на втором, потому что исследования и преподавание мне были интереснее. В течение двух лет я вела различные курсы по Python и компьютерной лингвистике в НИУ ВШЭ, а в МГУ преподавала ирландский язык.
Я всегда мечтала написать диссертацию. Меня интересовали одновременно кельтские языки и компьютерные науки, а в нашей стране найти хорошего научного руководителя на такой междисциплинарный проект довольно сложно. Да и продолжать жертвовать личным комфортом и уровнем жизни ради науки не хотелось, поэтому я искала зарубежные гранты. В итоге я подалась на два гранта, получила оба и уехала работать в Ирландию.
Про гендерное неравенство
Мне повезло. В IT я работала в преимущественно мужских командах, но никогда не сталкивалась с притеснением по половому признаку. Однако я не раз слышала такие истории от подруг: про обучение в университете на технических специальностях и про предвзятое отношение на работе.
Где искать грант
Я начала ездить на научные конференции и публиковать статьи уже на 2 курсе МГУ, и за 5-6 лет у меня сложилась хорошая сеть контактов как среди кельтологов, так и среди компьютерных лингвистов. Когда ирландский проект «Cardamom» по NLP для миноритарных и древних языков получил грант и там открылось две PhD-позиции с полным финансированием, мне об этом написали сразу трое зарубежных коллег. Это было именно то, что я хотела, поэтому я сразу подала заявку.
Это было похоже на обычный найм на работу: отправила резюме, прошла интервью по скайпу и меня пригласили. Так обычно бывает, когда большой проект получает грант, и его руководитель собирает команду. Если же вы поступаете в зарубежную аспирантуру на общих условиях, то найти финансирование, которое покроет хотя бы стоимость обучения, уже сложнее. Но в IT, как правило, всё-таки ищут людей в проект.
Чем я занимаюсь
Сейчас я работаю на западном побережье Ирландии в научно-исследовательском институте Insight Centre for Data Analytics в лаборатории Unit for Linguistic Data. Всего я занята в трёх проектах, один из которых — мое собственное исследование.
- Мой основной проект, «Comparative Deep Models for Minority and Historical Languages», или Cardamom, нацелен на создание пайплайна для работы с древними и миноритарными языками. На текущем этапе мы собираем данные из соцсетей и других открытых источников — например, электронных изданий текстов. Я отвечаю за миноритарные языки России (чувашский, лезгинский и т.д.) и за древние индо-европейские языки (древнеирландский, древнеисландский и т.д.): пишу краулеры, структурирую данные.
- В большом европейском проекте по компьютерной лексикографии Elexis я помогаю с ирландским языком.
- Мои собственные исследования посвящены диахроническим моделям эмбеддингов. Для обучения эмбеддингов нужно много данных, а текстов на древних языках сравнительно мало. К этому добавляется сложность грамматики, ненормированная орфография и прочие лингвистические проблемы. И есть гипотеза, что данные более позднего состояния языка помогут лучше смоделировать более ранние стадии его развития. Если она подтвердится, то тогда наши результаты помогут историкам языка.
Стартер-пак для работы в Data Science
Язык программирования Python, чтобы работать с данными.
Базовая математика — линейная алгебра, теория вероятности, математический анализ.
- Понимание предметной области, в которой вы будете работать.
- Портфолио. Это могут быть учебные проекты или участие в соревнованиях, например, на Kaggle.
FAQ
- Что занимает больше времени: сбор или анализ данных?
- Сбор. Для анализа есть много библиотек и, как правило, никто не изобретает велосипед.
- Куда идти учиться, чтобы сменить профессию?
- Смотря на каком этапе вы хотите ее сменить и какие цели преследуете. Если вы решили сменить профессию после нескольких лет работы по другой специальности и хотите работать в индустрии, то на курсы: они ориентируются на практические задачи и занимают меньше времени, чем высшее образование. Если же вы недавно закончили университет, то стоит рассмотреть магистратуру — особенно если вы потом хотите остаться в академии.
- Надо ли знать английский язык?
- Да. Он помогает общаться с коллегами из других стран, если у вас многоязычная команда. А ещё на английском выходят все научные статьи, блоги и документация библиотек, поэтому знание языка помогает быть всегда в курсе новостей.
Первая версия текста содержала ошибки и были исправлены по согласованию с авторкой, приносим свои извинения.
Спасибо, отличная статья, особенно полезно про Kaggle и гранты.
А употребление гендерной лингвистики очаровывает всех:
— и граммар-наци («лингвист», «инженер»)
— и суфражисток («специалистка», «исследовательница»)
— и феминисток («сайентистка», «менторка»)
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Плюс за честность что основная черная работа в романтизированном DS NLP это сбор данных, разработка парсеров, скраперов, пауков - краулеров. Напомню своим ученикам!
Есть на всякий, есть на случай,
В "Корабле" специалист -
Ваш великий и могучий
Структуральнейший лингвист. :) (с)
Успехов и удачи! :)
Спасибо за статью, очень полезно!
Что скажете о магистратуре ВШЭ «Компьютерная лингвистика» (она же NLP), неужели ее могут заменить какие-то курсы?
пиреехала из деревни в город и полеслось