{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Путь филолога в Data Science: «Лаборатория Касперского», преподавание в университете и PhD в Ирландии

Серия интервью со специалистками в рамках нашего спецпроекта Women Power IT

Оксана Дереза

PhD candidate / Researcher, Insight Centre for Data Analytics (National University of Ireland Galway), ex. преподавательница НИУ ВШЭ, ex. менторка SkillFactory

Гуманитарий vs. технарь

В детстве я побаивалась математики и всего технического, но, пройдя путь от филолога до NLP-инженера, поняла, что разделение «гуманитарий vs. технарь» искусственно. Поэтому, если в школе у вас было плохо с точными науками, не нужно сейчас их бояться. Возможно, вам их просто плохо преподавали.

Если вы сомневаетесь, стоит ли идти в IT, попробуйте понять, в чем причина ваших сомнений. Если останавливает только то, что вы девушка и/или «гуманитарий», то отбрасывайте эти предрассудки и пробуйте себя. Ни пол, ни успехи в гуманитарных науках на технические способности не влияют. Если вы просто не знаете, ваше ли это вообще, то постарайтесь разобраться, какие профессии бывают в IT и что из этого вам хотелось бы делать. Если единственная мотивация развиваться в этом направлении — «в IT много денег», то это не поможет стать хорошим специалистом.

Меня постоянно поддерживало то, что мне это было интересно. Иногда возникали опасения, что у меня недостаточно бэкграунда, чтобы стать хорошим IT-специалистом, и однажды меня «раскусят» и с позором выгонят отовсюду, но фидбэк от преподавателей и публикации после выступлений на конференциях добавляли уверенности.

От кельтолога до компьютерного лингвиста

В какой-то мере весь мой путь в Data Science — череда случайностей. В 2010 году я поступила на филфак МГУ и переехала из Челябинска в Москву. На пятом курсе я начала подрабатывать на удалёнке парт-тайм в «Лаборатории Касперского» веб-аналитиком. Для этого не были нужны никакие технические навыки. Я занималась анализом датского веб-контента, поэтому всё, что от меня требовалось — это знание языка. Чем дольше я работала, тем больше мне нравилось IT и атмосфера компании. Так я решила, что хочу дальше развиваться в этой сфере.

Закончив МГУ, я поступила в магистратуру НИУ ВШЭ «Компьютерная лингвистика» (она же Natural Language Processing, или NLP), чтобы иметь возможность изучать программирование и математику, но при этом работать с текстами. Всё это время я продолжала работать в «Лаборатории Касперского» над продуктом для родительского контроля «Kaspersky Safe Kids». Мы занимались контент-фильтрацией — одной из задач Data Science. Собственно на работе я и узнала про эту область.

Чтобы учиться на практике, я начала просить коллег о задачах, связанных с анализом данных. Должна сказать, что NLP не является частью Data Science, но пересекается с этой областью. То, что их объединяет — это сбор и анализ текстовых данных. А поскольку мы занимались анализом веб-контента, текстовых данных у нас как раз было много.

В 2017 году я закончила магистратуру и осталась преподавать в университете. Вскоре пришлось сделать выбор: индустрия или академия. Я остановилась на втором, потому что исследования и преподавание мне были интереснее. В течение двух лет я вела различные курсы по Python и компьютерной лингвистике в НИУ ВШЭ, а в МГУ преподавала ирландский язык.

Я всегда мечтала написать диссертацию. Меня интересовали одновременно кельтские языки и компьютерные науки, а в нашей стране найти хорошего научного руководителя на такой междисциплинарный проект довольно сложно. Да и продолжать жертвовать личным комфортом и уровнем жизни ради науки не хотелось, поэтому я искала зарубежные гранты. В итоге я подалась на два гранта, получила оба и уехала работать в Ирландию.

Про гендерное неравенство

Мне повезло. В IT я работала в преимущественно мужских командах, но никогда не сталкивалась с притеснением по половому признаку. Однако я не раз слышала такие истории от подруг: про обучение в университете на технических специальностях и про предвзятое отношение на работе.

Где искать грант

Я начала ездить на научные конференции и публиковать статьи уже на 2 курсе МГУ, и за 5-6 лет у меня сложилась хорошая сеть контактов как среди кельтологов, так и среди компьютерных лингвистов. Когда ирландский проект «Cardamom» по NLP для миноритарных и древних языков получил грант и там открылось две PhD-позиции с полным финансированием, мне об этом написали сразу трое зарубежных коллег. Это было именно то, что я хотела, поэтому я сразу подала заявку.

Это было похоже на обычный найм на работу: отправила резюме, прошла интервью по скайпу и меня пригласили. Так обычно бывает, когда большой проект получает грант, и его руководитель собирает команду. Если же вы поступаете в зарубежную аспирантуру на общих условиях, то найти финансирование, которое покроет хотя бы стоимость обучения, уже сложнее. Но в IT, как правило, всё-таки ищут людей в проект.

Чем я занимаюсь

Сейчас я работаю на западном побережье Ирландии в научно-исследовательском институте Insight Centre for Data Analytics в лаборатории Unit for Linguistic Data. Всего я занята в трёх проектах, один из которых — мое собственное исследование.

  • Мой основной проект, «Comparative Deep Models for Minority and Historical Languages», или Cardamom, нацелен на создание пайплайна для работы с древними и миноритарными языками. На текущем этапе мы собираем данные из соцсетей и других открытых источников — например, электронных изданий текстов. Я отвечаю за миноритарные языки России (чувашский, лезгинский и т.д.) и за древние индо-европейские языки (древнеирландский, древнеисландский и т.д.): пишу краулеры, структурирую данные.
  • В большом европейском проекте по компьютерной лексикографии Elexis я помогаю с ирландским языком.
  • Мои собственные исследования посвящены диахроническим моделям эмбеддингов. Для обучения эмбеддингов нужно много данных, а текстов на древних языках сравнительно мало. К этому добавляется сложность грамматики, ненормированная орфография и прочие лингвистические проблемы. И есть гипотеза, что данные более позднего состояния языка помогут лучше смоделировать более ранние стадии его развития. Если она подтвердится, то тогда наши результаты помогут историкам языка.

Стартер-пак для работы в Data Science

  • Язык программирования Python, чтобы работать с данными.

  • Базовая математика — линейная алгебра, теория вероятности, математический анализ.

  • Понимание предметной области, в которой вы будете работать.
  • Портфолио. Это могут быть учебные проекты или участие в соревнованиях, например, на Kaggle.

FAQ

- Что занимает больше времени: сбор или анализ данных?

- Сбор. Для анализа есть много библиотек и, как правило, никто не изобретает велосипед.

- Куда идти учиться, чтобы сменить профессию?

- Смотря на каком этапе вы хотите ее сменить и какие цели преследуете. Если вы решили сменить профессию после нескольких лет работы по другой специальности и хотите работать в индустрии, то на курсы: они ориентируются на практические задачи и занимают меньше времени, чем высшее образование. Если же вы недавно закончили университет, то стоит рассмотреть магистратуру — особенно если вы потом хотите остаться в академии.

- Надо ли знать английский язык?

- Да. Он помогает общаться с коллегами из других стран, если у вас многоязычная команда. А ещё на английском выходят все научные статьи, блоги и документация библиотек, поэтому знание языка помогает быть всегда в курсе новостей.

Первая версия текста содержала ошибки и были исправлены по согласованию с авторкой, приносим свои извинения.

0
5 комментариев
Denis Bystruev

Спасибо, отличная статья, особенно полезно про Kaggle и гранты.

А употребление гендерной лингвистики очаровывает всех:

— и граммар-наци («лингвист», «инженер»)
— и суфражисток («специалистка», «исследовательница»)
— и феминисток («сайентистка», «менторка»)

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Denis Trofimov

Плюс за честность что основная черная работа в романтизированном DS NLP это сбор данных, разработка парсеров, скраперов, пауков - краулеров. Напомню своим ученикам!

Ответить
Развернуть ветку
Александр Яковлев

Есть на всякий, есть на случай,
В "Корабле" специалист -
Ваш великий и могучий
Структуральнейший лингвист. :) (с)

Успехов и удачи! :)

Ответить
Развернуть ветку
Анастасия Вареникова

Спасибо за статью, очень полезно!
Что скажете о магистратуре ВШЭ «Компьютерная лингвистика» (она же NLP), неужели ее могут заменить какие-то курсы?

Ответить
Развернуть ветку
Синди Катсс

пиреехала из деревни в город и полеслось 

Ответить
Развернуть ветку
2 комментария
Раскрывать всегда