Как машинное обучение изменит мир и что нужно для старта карьеры в Data Science

В новом выпуске подкаста «Сушите вёсла» принял участие руководитель отдела машинного обучения Redmadrobot Data Lab by red_mad_robot Иван Тимофеев. Обсудили всё про ML — как оно помогает искать камни, как будет генерировать весь контент на планете и что изучать, чтобы написать свою нейронную сеть.

«Сушите вёсла» — подкаст про разработку, аналитику, тестирование и всё, что связано с созданием IT-продуктов. Его ведут руководитель отдела android-разработки red_mad_robot Рома Чорыев и программист Артём Кулаков.

В эпизоде #17 обсудили, как machine learning применяется в областях, никак не связанных с IT, а Иван развеял мифы про искусственный интеллект и порабощение людей.

Слушайте подкаст по ссылке или читайте ответы на восемь горячих вопросов про машинное обучение.

05:20 — что такое machine learning,

07:15 — как применять в промышленности,

13:50 — выгодно ли внедрять на производстве,

15:20 — про популярность в России,

20:20 — как применять для генерации контента,

25:30 — про уязвимость данных,

35:14 — как связаны machine learning и Dungeons & Dragons,

39:50 — про самые сложные задачи,

45:02 — где в будущем будут применять machine learning,

49:51 — про обучение и порог входа,

01:00:19 — математика в machine learning,

01:05:18 — про взаимодействие AI и людей в «Дюне».

Чтобы проще воспринимать выпуск подкаста и этот текст, разберёмся с основными понятиями. Иван начал с объяснения artificial intelligence и Data Science:

Аrtificial intelligence (AI) — это отдельная область по созданию искусственного интеллекта. Для этого используют разные инструменты, которые через алгоритмы преобразовывают данные в результаты.
Data Science — это область, которая изучает инструменты по созданию AI.
Machine learning — отдельное направление в Data Science, которое помогает создавать алгоритмы AI не вручную, а автоматически.
Нейронные сети — это архитектура из machine learning. У нейросетевых алгоритмов есть веса — их вычисляют с помощью машинного обучения.
Deep learning — вид нейросетей, которые состоят из множества уровней — из 50, из 100, из 1000 уровней.

Ведущие попросили гостя объяснить machine learning гипотетической бабушке, которая не знает про нейронные сети.

Большинство бабушек знает, что есть программисты, что они просиживают штаны перед компьютерами и пишут свои программки. Этой бабушке можно объяснить, что часть программ может быть вручную написана разработчиком, а может быть автоматически вычислена компьютером. Та часть, которая автоматически вычисляется, работает с помощью machine learning.
Иван Тимофеев

Иван рассказал, как его команда использовала machine learning в тяжёлой промышленности, где много датчиков. Они фиксируют информацию о продукции.

Пример: на одном предприятии занимались обработкой камней. Нужно было определить размер каждого камня и выдать статистику — какой средний размер, сколько камней на конвейере. Эта информация помогла бы изменить режим работы конвейера. Для решения этой проблемы команда Ивана создала дополнительный датчик и внедрила machine learning.

Machine learning — быстрый способ запрограммировать сложную проблему, на которую ушло бы полгода, год, а, возможно, бесконечность. Машинное обучение помогает работать со сложной информации — например, с фото, видео, текстами.

Гость подкаста объясняет, что GAN — это трюк тренировки сети. Состоит из двух сетей: одна сжимает информацию, а другая — разжимает и генерирует что-то, например, контент. Эти сети тренируются одновременно. Первая создаёт контент, а вторая определяет, настоящий это контент или созданный.

Одна сеть обучается обманывать, создавать ненастоящий контент, а другая учится различать, где настоящий контент, где ненастоящий. Постепенно эти сети становятся всё умнее и умнее — контент генерируется всё лучше и лучше. В один момент даже человек не сможет отличить настоящий контент от созданного. Так нейросети могут создавать правдоподобные фотографии.
Иван Тимофеев

Если при тренировке сетей не предпринимать никаких действий по борьбе с проникновением, систему можно будет взломать. Иван рассказал, что в зоне риска системы с прямым доступом — для их взлома злоумышленник может использовать GANы. В некоторых случаях ему достаточно нагенерировать изображения, быстро перебрать их и подобрать такое, при котором система начнёт ошибаться. Конечно, всё это может сработать лишь с некоторыми системами и не без везения, но риск взлома всё равно реален.

Перед стартом разработки системы на машинном обучении нужно понимать, какая безопасность ей нужна. Если высокая, то необходимо всё делать самому. Например, разработать такую сеть, которая пытается обмануть твою же систему. Если безопасность не так важна, достаточно использовать простые методы защиты — например, учесть, чтобы при очень большом количестве попыток нельзя было увидеть выход своей сети.

Самые сильные и мощные алгоритмы сейчас — GANы для генерации фото и GPT-3 для генерации текста. Иван привёл пример алгоритма, который может создавать лица. Чтобы он работал и качественно генерировал лица, провели тренировки. Алгоритм две недели тренировался на большом кластере серверов. На это ушло около миллиона долларов. Это траты только на мощности: на электричество и на железо.

Ещё одно популярное применение для решения ресурсоёмких задач – Dungeon AI.

Это формат игры Dungeons & Dragons. Это текстовые квесты — пишешь события, которые происходят с твоим героем, и тебя ведут по виртуальному миру. Это первое реальное применение GPT-3 — алгоритм, по сути, автором Dungeons & Dragons.
Иван Тимофеев

Алгоритм реагировал на любые действия и слова игрока. А игрок вместе с GPT-3 писал сюжет игры. В онлайне это реализовали через тексты — ты пишешь, что с тобой происходит, и тебе сразу же приходит ответ.

Самое удивительное — эта штука была настолько мощная, что запоминала действия. Я игрался, дрался с орком, мне написали: «Ты выронил клинок». Я пишу, что поднимаю клинок. То есть GPT-3 запомнил, что есть клинок, который я поднимаю, и я ударил им. Это было потрясающе!
Иван Тимофеев

Гость подкаста уверен, что одно из главных применений машинного обучения — генерация контента.

Генерация контента и игры помогут понять, как использовать машинное обучение для решения более важных задач — например, как осуществлять психологическую помощь. Для решения этой задачи нужно:

либо больше людей, которые тебе сочувствуют,
либо алгоритм, который тебя очень хорошо сейчас поймёт.

Для чего нужна генерации изображений? Чтобы быстрее создавать контент, чтобы сократить расходы на него. Поэтому машинное обучение будет востребовано в рекламе и других сферах, где на создание контента уходит много ресурсов.

Иван считает, что порог входа довольно высокий. Нужно разбираться не только в Data Science и Machine Learning. Пригодятся знания программиста хотя бы на уровне джуна — лучше на языке Python. Этому учат на сильных курсах, подчеркнул Иван, например — на Яндекс.Практикум.

На рынке стажёров в Data Science колоссальная конкуренция. Удалёнка и обилие курсов привели к тому, что много людей изучили Data Science, стали стажëрами и не могут найти работу.

Предложение на стажёров сейчас намного выше спроса. А с мидлами и сеньорами наоборот — предложение ниже спроса. На рынке много новичков и мало специалистов, которые готовы самостоятельно или в команде делать сильные и классные системы.
Иван Тимофеев

Для изучения машинного обучения можно использовать книги. Иван советует такие:

Python for Data Analysis (Wes McKinney) — узнаете про все инструменты по анализу цифр, таблиц и данных.
Data Science (Joel Grus) — всё про Data Science и Machine Learning подходы

Совет: как начать карьеру в machine learning
Если хочешь устроиться на работу, стоит начать не с курсов и не с книг, а пойти в другую сторону. Пройти минимальное обучение, минимальный курс, две недели какого-нибудь ускоренного курса на конкретную вещь в machine learning.Затем в свободное время или на текущей работе попытаться применить знания. Можно поговорить с начальником, чтобы начать разрабатывать решения из machine learning.Так появится реальный опыт, и ты сразу поймешь, хочешь этим заниматься или нет. И если захочешь, уже тогда можно пойти на нормальные курсы, взять любую книгу для новичков, изучить информацию и выходить на рынок.
Иван Тимофеев

Возможно, но не во всех сферах. Иван не сомневается, что через 10-20 лет вместо такси развозить людей будут автоматизированные повозки. Они отнимут хлеб у таксистов, которым придётся перепрофилироваться.

Казалось бы, создаются нейронные сети для генерации картинок и текста. Это может привести к тому, чтобы AI съест рынок дизайнеров и редакторов. Но на самом деле нет — скорее всего, дизайнеры и редакторы будут использовать инструменты machine learning именно как инструменты, а сами они не уйдут. Просто будут намного быстрее и качественнее делать свою работу. Раньше печатали текст на машинке, потом появился Microsoft Word — редактор не лишился работы из-за программы. Просто стал быстрее печатать текст.
Иван Тимофеев

Полезные материалы

AI Dungeon — можно играть онлайн,
Какими вопросами сейчас можно сломать GPT-3,
Простое описание GAN и что можно сейчас им делать,
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron — книга про практическое применение машинного обучения с минимальной теорией,
Python for Data Analysis, Wes McKinney — книга про работу с табличными данными,
Сообщество Open Data Science — для тех, кто хочет втянуться в machine learning. Там проходят курсы, есть тематические каналы в slack, проводятся внутренние состязания и собираются команды для участия во внешних,
Курсы:
Дата-сайентист в Яндекс.Практикуме,
Machine Learning в Skillfactory,
Хардкорный machine learning (для прокачанных).

***

Слушайте нас там, где удобно — SoundCloud, Apple, Google Podcasts, Яндекс.Музыка.

Очень технический выпуск: про DDD и проектирование сложных систем,
«Сделай мне красиво»: как работает дизайнер интерфейсов и чем дизайн похож на музыку,
«Закон есть закон»: как жить в юридическом мире, если ты из айти,
Кто такие биоинформатики: чем похожи на Data Science и почему полезны для человечества.

***

Если послушали выпуск и всё равно не поняли про машинное обучение, постучитесь в наш Telegram-чат и задайте вопрос — ведущие и эксперты помогут с ответом. Или просто заходите обсудить подкаст.

#машинноеобучение #machinelearning #datascience #программирование #айти #подкасты #сушитевесла #redmadrobot #red_mad_robot

Как машинное обучение изменит мир и что нужно для старта карьеры в Data Science

Тайминг

Как не запутаться в терминах из машинного обучения

Как машинное обучение применяют в промышленности

Как помогает улучшать сервисы

Можно ли взломать machine learning

Какие задачи требуют от машинного обучения самых больших ресурсов

Что ждать от machine learning через десять лет

Хочу заниматься машинным обучением — что для этого нужно

Правда ли, что искусственный интеллект заберёт рабочие места у людей

Предыдущие выпуски подкаста «Сушите вёсла»