Как машинное обучение изменит мир и что нужно для старта карьеры в Data Science
В новом выпуске подкаста «Сушите вёсла» принял участие руководитель отдела машинного обучения Redmadrobot Data Lab by red_mad_robot Иван Тимофеев. Обсудили всё про ML — как оно помогает искать камни, как будет генерировать весь контент на планете и что изучать, чтобы написать свою нейронную сеть.
«Сушите вёсла» — подкаст про разработку, аналитику, тестирование и всё, что связано с созданием IT-продуктов. Его ведут руководитель отдела android-разработки red_mad_robot Рома Чорыев и программист Артём Кулаков.
В эпизоде #17 обсудили, как machine learning применяется в областях, никак не связанных с IT, а Иван развеял мифы про искусственный интеллект и порабощение людей.
Слушайте подкаст по ссылке или читайте ответы на восемь горячих вопросов про машинное обучение.
Тайминг
05:20 — что такое machine learning,
07:15 — как применять в промышленности,
13:50 — выгодно ли внедрять на производстве,
15:20 — про популярность в России,
20:20 — как применять для генерации контента,
25:30 — про уязвимость данных,
35:14 — как связаны machine learning и Dungeons & Dragons,
39:50 — про самые сложные задачи,
45:02 — где в будущем будут применять machine learning,
49:51 — про обучение и порог входа,
01:00:19 — математика в machine learning,
01:05:18 — про взаимодействие AI и людей в «Дюне».
Как не запутаться в терминах из машинного обучения
Чтобы проще воспринимать выпуск подкаста и этот текст, разберёмся с основными понятиями. Иван начал с объяснения artificial intelligence и Data Science:
- Аrtificial intelligence (AI) — это отдельная область по созданию искусственного интеллекта. Для этого используют разные инструменты, которые через алгоритмы преобразовывают данные в результаты.
- Data Science — это область, которая изучает инструменты по созданию AI.
- Machine learning — отдельное направление в Data Science, которое помогает создавать алгоритмы AI не вручную, а автоматически.
- Нейронные сети — это архитектура из machine learning. У нейросетевых алгоритмов есть веса — их вычисляют с помощью машинного обучения.
- Deep learning — вид нейросетей, которые состоят из множества уровней — из 50, из 100, из 1000 уровней.
Ведущие попросили гостя объяснить machine learning гипотетической бабушке, которая не знает про нейронные сети.
Как машинное обучение применяют в промышленности
Иван рассказал, как его команда использовала machine learning в тяжёлой промышленности, где много датчиков. Они фиксируют информацию о продукции.
Пример: на одном предприятии занимались обработкой камней. Нужно было определить размер каждого камня и выдать статистику — какой средний размер, сколько камней на конвейере. Эта информация помогла бы изменить режим работы конвейера. Для решения этой проблемы команда Ивана создала дополнительный датчик и внедрила machine learning.
Как помогает улучшать сервисы
Machine learning — быстрый способ запрограммировать сложную проблему, на которую ушло бы полгода, год, а, возможно, бесконечность. Машинное обучение помогает работать со сложной информации — например, с фото, видео, текстами.
Гость подкаста объясняет, что GAN — это трюк тренировки сети. Состоит из двух сетей: одна сжимает информацию, а другая — разжимает и генерирует что-то, например, контент. Эти сети тренируются одновременно. Первая создаёт контент, а вторая определяет, настоящий это контент или созданный.
Можно ли взломать machine learning
Если при тренировке сетей не предпринимать никаких действий по борьбе с проникновением, систему можно будет взломать. Иван рассказал, что в зоне риска системы с прямым доступом — для их взлома злоумышленник может использовать GANы. В некоторых случаях ему достаточно нагенерировать изображения, быстро перебрать их и подобрать такое, при котором система начнёт ошибаться. Конечно, всё это может сработать лишь с некоторыми системами и не без везения, но риск взлома всё равно реален.
Перед стартом разработки системы на машинном обучении нужно понимать, какая безопасность ей нужна. Если высокая, то необходимо всё делать самому. Например, разработать такую сеть, которая пытается обмануть твою же систему. Если безопасность не так важна, достаточно использовать простые методы защиты — например, учесть, чтобы при очень большом количестве попыток нельзя было увидеть выход своей сети.
Какие задачи требуют от машинного обучения самых больших ресурсов
Самые сильные и мощные алгоритмы сейчас — GANы для генерации фото и GPT-3 для генерации текста. Иван привёл пример алгоритма, который может создавать лица. Чтобы он работал и качественно генерировал лица, провели тренировки. Алгоритм две недели тренировался на большом кластере серверов. На это ушло около миллиона долларов. Это траты только на мощности: на электричество и на железо.
Ещё одно популярное применение для решения ресурсоёмких задач – Dungeon AI.
Алгоритм реагировал на любые действия и слова игрока. А игрок вместе с GPT-3 писал сюжет игры. В онлайне это реализовали через тексты — ты пишешь, что с тобой происходит, и тебе сразу же приходит ответ.
Что ждать от machine learning через десять лет
Гость подкаста уверен, что одно из главных применений машинного обучения — генерация контента.
Генерация контента и игры помогут понять, как использовать машинное обучение для решения более важных задач — например, как осуществлять психологическую помощь. Для решения этой задачи нужно:
- либо больше людей, которые тебе сочувствуют,
- либо алгоритм, который тебя очень хорошо сейчас поймёт.
Для чего нужна генерации изображений? Чтобы быстрее создавать контент, чтобы сократить расходы на него. Поэтому машинное обучение будет востребовано в рекламе и других сферах, где на создание контента уходит много ресурсов.
Хочу заниматься машинным обучением — что для этого нужно
Иван считает, что порог входа довольно высокий. Нужно разбираться не только в Data Science и Machine Learning. Пригодятся знания программиста хотя бы на уровне джуна — лучше на языке Python. Этому учат на сильных курсах, подчеркнул Иван, например — на Яндекс.Практикум.
На рынке стажёров в Data Science колоссальная конкуренция. Удалёнка и обилие курсов привели к тому, что много людей изучили Data Science, стали стажëрами и не могут найти работу.
Для изучения машинного обучения можно использовать книги. Иван советует такие:
- Python for Data Analysis (Wes McKinney) — узнаете про все инструменты по анализу цифр, таблиц и данных.
- Data Science (Joel Grus) — всё про Data Science и Machine Learning подходы
Правда ли, что искусственный интеллект заберёт рабочие места у людей
Возможно, но не во всех сферах. Иван не сомневается, что через 10-20 лет вместо такси развозить людей будут автоматизированные повозки. Они отнимут хлеб у таксистов, которым придётся перепрофилироваться.
Полезные материалы
- AI Dungeon — можно играть онлайн,
- Какими вопросами сейчас можно сломать GPT-3,
- Простое описание GAN и что можно сейчас им делать,
- Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, Aurélien Géron — книга про практическое применение машинного обучения с минимальной теорией,
- Python for Data Analysis, Wes McKinney — книга про работу с табличными данными,
- Сообщество Open Data Science — для тех, кто хочет втянуться в machine learning. Там проходят курсы, есть тематические каналы в slack, проводятся внутренние состязания и собираются команды для участия во внешних,
- Курсы:
- Дата-сайентист в Яндекс.Практикуме,
- Machine Learning в Skillfactory,
- Хардкорный machine learning (для прокачанных).
***
Слушайте нас там, где удобно — SoundCloud, Apple, Google Podcasts, Яндекс.Музыка.
Предыдущие выпуски подкаста «Сушите вёсла»
- Очень технический выпуск: про DDD и проектирование сложных систем,
- «Сделай мне красиво»: как работает дизайнер интерфейсов и чем дизайн похож на музыку,
- «Закон есть закон»: как жить в юридическом мире, если ты из айти,
- Кто такие биоинформатики: чем похожи на Data Science и почему полезны для человечества.
***
Если послушали выпуск и всё равно не поняли про машинное обучение, постучитесь в наш Telegram-чат и задайте вопрос — ведущие и эксперты помогут с ответом. Или просто заходите обсудить подкаст.
#машинноеобучение #machinelearning #datascience #программирование #айти #подкасты #сушитевесла #redmadrobot #red_mad_robot
Пара книжек и ты уже датасаентист? где вышка, матан, числяк, сиквел , фреймворки и прочее?
будем считать, что читатели это увидели, зафиксировали, а в книжках это есть.
Нет, это инфоцыганство чистой воды
рекомендация фуфло. галопом по европам, с кем общался - на стажировку без нужной математики не берут. Но успешные истории бывают, коих мало.
Можно поговорить с начальником, чтобы начать разрабатывать решения из machine learning.а если ты девопс? есть крутые идеи не связанные с логами приложений? Не, можт я че не понимаю.
Почему подкаста нету в spotify ?
Следующий выпуск уже будет там!
Сама далека от этой сферы, а вот брат как раз таки работает где то в области машинного обучения. Решила поузнавать об этой профессии побольше. Вот статьи всякие читаю https://kedu.ru/press-center/profgid/spetsialist-po-mashinnomu/ Так то кажется интересная сфера для работы, если в этом разбираться)