Как машинное обучение изменит мир и что нужно для старта карьеры в Data Science

Как машинное обучение изменит мир и что нужно для старта карьеры в Data Science

В новом выпуске подкаста «Сушите вёсла» принял участие руководитель отдела машинного обучения Redmadrobot Data Lab by red_mad_robot Иван Тимофеев. Обсудили всё про ML — как оно помогает искать камни, как будет генерировать весь контент на планете и что изучать, чтобы написать свою нейронную сеть.

«Сушите вёсла» — подкаст про разработку, аналитику, тестирование и всё, что связано с созданием IT-продуктов. Его ведут руководитель отдела android-разработки red_mad_robot Рома Чорыев и программист Артём Кулаков.

В эпизоде #17 обсудили, как machine learning применяется в областях, никак не связанных с IT, а Иван развеял мифы про искусственный интеллект и порабощение людей.

Слушайте подкаст по ссылке или читайте ответы на восемь горячих вопросов про машинное обучение.

Тайминг

05:20 — что такое machine learning,

07:15 — как применять в промышленности,

13:50 — выгодно ли внедрять на производстве,

15:20 — про популярность в России,

20:20 — как применять для генерации контента,

25:30 — про уязвимость данных,

35:14 — как связаны machine learning и Dungeons & Dragons,

39:50 — про самые сложные задачи,

45:02 — где в будущем будут применять machine learning,

49:51 — про обучение и порог входа,

01:00:19 — математика в machine learning,

01:05:18 — про взаимодействие AI и людей в «Дюне».

Как не запутаться в терминах из машинного обучения

Чтобы проще воспринимать выпуск подкаста и этот текст, разберёмся с основными понятиями. Иван начал с объяснения artificial intelligence и Data Science:

  • Аrtificial intelligence (AI) — это отдельная область по созданию искусственного интеллекта. Для этого используют разные инструменты, которые через алгоритмы преобразовывают данные в результаты.
  • Data Science — это область, которая изучает инструменты по созданию AI.
  • Machine learning — отдельное направление в Data Science, которое помогает создавать алгоритмы AI не вручную, а автоматически.
  • Нейронные сети — это архитектура из machine learning. У нейросетевых алгоритмов есть веса — их вычисляют с помощью машинного обучения.
  • Deep learning — вид нейросетей, которые состоят из множества уровней — из 50, из 100, из 1000 уровней.

Ведущие попросили гостя объяснить machine learning гипотетической бабушке, которая не знает про нейронные сети.

Большинство бабушек знает, что есть программисты, что они просиживают штаны перед компьютерами и пишут свои программки. Этой бабушке можно объяснить, что часть программ может быть вручную написана разработчиком, а может быть автоматически вычислена компьютером. Та часть, которая автоматически вычисляется, работает с помощью machine learning.

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Как машинное обучение применяют в промышленности

Иван рассказал, как его команда использовала machine learning в тяжёлой промышленности, где много датчиков. Они фиксируют информацию о продукции.

Пример: на одном предприятии занимались обработкой камней. Нужно было определить размер каждого камня и выдать статистику — какой средний размер, сколько камней на конвейере. Эта информация помогла бы изменить режим работы конвейера. Для решения этой проблемы команда Ивана создала дополнительный датчик и внедрила machine learning.

Как помогает улучшать сервисы

Machine learning — быстрый способ запрограммировать сложную проблему, на которую ушло бы полгода, год, а, возможно, бесконечность. Машинное обучение помогает работать со сложной информации — например, с фото, видео, текстами.

Гость подкаста объясняет, что GAN — это трюк тренировки сети. Состоит из двух сетей: одна сжимает информацию, а другая — разжимает и генерирует что-то, например, контент. Эти сети тренируются одновременно. Первая создаёт контент, а вторая определяет, настоящий это контент или созданный.

Одна сеть обучается обманывать, создавать ненастоящий контент, а другая учится различать, где настоящий контент, где ненастоящий. Постепенно эти сети становятся всё умнее и умнее — контент генерируется всё лучше и лучше. В один момент даже человек не сможет отличить настоящий контент от созданного. Так нейросети могут создавать правдоподобные фотографии.

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Можно ли взломать machine learning

Если при тренировке сетей не предпринимать никаких действий по борьбе с проникновением, систему можно будет взломать. Иван рассказал, что в зоне риска системы с прямым доступом — для их взлома злоумышленник может использовать GANы. В некоторых случаях ему достаточно нагенерировать изображения, быстро перебрать их и подобрать такое, при котором система начнёт ошибаться. Конечно, всё это может сработать лишь с некоторыми системами и не без везения, но риск взлома всё равно реален.

Перед стартом разработки системы на машинном обучении нужно понимать, какая безопасность ей нужна. Если высокая, то необходимо всё делать самому. Например, разработать такую сеть, которая пытается обмануть твою же систему. Если безопасность не так важна, достаточно использовать простые методы защиты — например, учесть, чтобы при очень большом количестве попыток нельзя было увидеть выход своей сети.

Какие задачи требуют от машинного обучения самых больших ресурсов

Самые сильные и мощные алгоритмы сейчас — GANы для генерации фото и GPT-3 для генерации текста. Иван привёл пример алгоритма, который может создавать лица. Чтобы он работал и качественно генерировал лица, провели тренировки. Алгоритм две недели тренировался на большом кластере серверов. На это ушло около миллиона долларов. Это траты только на мощности: на электричество и на железо.

Ещё одно популярное применение для решения ресурсоёмких задач – Dungeon AI.

Это формат игры Dungeons & Dragons. Это текстовые квесты — пишешь события, которые происходят с твоим героем, и тебя ведут по виртуальному миру. Это первое реальное применение GPT-3 — алгоритм, по сути, автором Dungeons & Dragons.

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Алгоритм реагировал на любые действия и слова игрока. А игрок вместе с GPT-3 писал сюжет игры. В онлайне это реализовали через тексты — ты пишешь, что с тобой происходит, и тебе сразу же приходит ответ.

Самое удивительное — эта штука была настолько мощная, что запоминала действия. Я игрался, дрался с орком, мне написали: «Ты выронил клинок». Я пишу, что поднимаю клинок. То есть GPT-3 запомнил, что есть клинок, который я поднимаю, и я ударил им. Это было потрясающе!

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Что ждать от machine learning через десять лет

Гость подкаста уверен, что одно из главных применений машинного обучения — генерация контента.

Генерация контента и игры помогут понять, как использовать машинное обучение для решения более важных задач — например, как осуществлять психологическую помощь. Для решения этой задачи нужно:

  • либо больше людей, которые тебе сочувствуют,
  • либо алгоритм, который тебя очень хорошо сейчас поймёт.

Для чего нужна генерации изображений? Чтобы быстрее создавать контент, чтобы сократить расходы на него. Поэтому машинное обучение будет востребовано в рекламе и других сферах, где на создание контента уходит много ресурсов.

Хочу заниматься машинным обучением — что для этого нужно

Иван считает, что порог входа довольно высокий. Нужно разбираться не только в Data Science и Machine Learning. Пригодятся знания программиста хотя бы на уровне джуна — лучше на языке Python. Этому учат на сильных курсах, подчеркнул Иван, например — на Яндекс.Практикум.

На рынке стажёров в Data Science колоссальная конкуренция. Удалёнка и обилие курсов привели к тому, что много людей изучили Data Science, стали стажëрами и не могут найти работу.

Предложение на стажёров сейчас намного выше спроса. А с мидлами и сеньорами наоборот — предложение ниже спроса. На рынке много новичков и мало специалистов, которые готовы самостоятельно или в команде делать сильные и классные системы.

Иван Тимофеев,

руководитель отдела машинного обучения RDL by red_mad_robot

Для изучения машинного обучения можно использовать книги. Иван советует такие:

  • Python for Data Analysis (Wes McKinney) — узнаете про все инструменты по анализу цифр, таблиц и данных.
  • Data Science (Joel Grus) — всё про Data Science и Machine Learning подходы

Совет: как начать карьеру в machine learning
Если хочешь устроиться на работу, стоит начать не с курсов и не с книг, а пойти в другую сторону. Пройти минимальное обучение, минимальный курс, две недели какого-нибудь ускоренного курса на конкретную вещь в machine learning.Затем в свободное время или на текущей работе попытаться применить знания. Можно поговорить с начальником, чтобы начать разрабатывать решения из machine learning.Так появится реальный опыт, и ты сразу поймешь, хочешь этим заниматься или нет. И если захочешь, уже тогда можно пойти на нормальные курсы, взять любую книгу для новичков, изучить информацию и выходить на рынок.

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Правда ли, что искусственный интеллект заберёт рабочие места у людей

Возможно, но не во всех сферах. Иван не сомневается, что через 10-20 лет вместо такси развозить людей будут автоматизированные повозки. Они отнимут хлеб у таксистов, которым придётся перепрофилироваться.

Казалось бы, создаются нейронные сети для генерации картинок и текста. Это может привести к тому, чтобы AI съест рынок дизайнеров и редакторов. Но на самом деле нет — скорее всего, дизайнеры и редакторы будут использовать инструменты machine learning именно как инструменты, а сами они не уйдут. Просто будут намного быстрее и качественнее делать свою работу. Раньше печатали текст на машинке, потом появился Microsoft Word — редактор не лишился работы из-за программы. Просто стал быстрее печатать текст.

Иван Тимофеев, руководитель отдела машинного обучения RDL by red_mad_robot

Полезные материалы

***

Слушайте нас там, где удобно — SoundCloud, Apple, Google Podcasts, Яндекс.Музыка.

Предыдущие выпуски подкаста «Сушите вёсла»

***

Если послушали выпуск и всё равно не поняли про машинное обучение, постучитесь в наш Telegram-чат и задайте вопрос — ведущие и эксперты помогут с ответом. Или просто заходите обсудить подкаст.

1414
7 комментариев

Пара книжек и ты уже датасаентист? где вышка, матан, числяк, сиквел , фреймворки и прочее?

2
Ответить

будем считать, что читатели это увидели, зафиксировали, а в книжках это есть.

Ответить

яндекс.практикумрекомендация фуфло. галопом по европам, с кем общался - на стажировку без нужной математики не берут. Но успешные истории бывают, коих мало.

Можно поговорить с начальником, чтобы начать разрабатывать решения из machine learning.

а если ты девопс? есть крутые идеи не связанные с логами приложений? Не, можт я че не понимаю.

Ответить

Почему подкаста нету в spotify ?

Ответить

Следующий выпуск уже будет там!

Ответить

Сама далека от этой сферы, а вот брат как раз таки работает где то в области машинного обучения. Решила поузнавать об этой профессии побольше. Вот статьи всякие читаю https://kedu.ru/press-center/profgid/spetsialist-po-mashinnomu/ Так то кажется интересная сфера для работы, если в этом разбираться)

Ответить