Будущее раздела машинного обучения "обучение с подкреплением".
История "обучения с подкреплением".
Само название “обучение с подкреплением” взято из работ известного русского физиолога, нобелевского лауреата Ивана Петровича Павлова. В 1923 вышел его труд “Двадцатилетний опыт объективного изучения высшей нервной деятельности (поведения) животных” , известный на западе как Conditional Reflexes .
Помимо Павлова, давшего название области, стоит упомянуть несколько работ из физиологии, например, работу Петра Кузьмича Анохина 1948-ого года , продолжателя научной школы Павлова, Росса Ашби (W. Ross Ashby) 1952-ого “Архитектура мозга” . В дальнейшем эти работы повлияли на вторую волну интереса к обучению с подкреплением, в частности на работы Гарри Клопфа (Harry Klopf).
В своей диссертации Марвин Минский (1954 г.) представил вычислительные модели обучения с подкреплением, а также описал аналоговую вычислительную машину, построенную на элементах, которые он назвал SNARC
В 1968 году Дональд Мичи (во Вторую Мировую войну он, как и Алан Тьюринг, работал криптографом) и Р. А. Чамберс представили свою версию задачи про балансировку шеста на платформе (можно посмотреть на заглавной картинке к посту) в работе “BOXES: Эксперимент в контролируемом окружении”
1977 г., вышла прошедшая незамеченной работа Йена Уиттена (Ian Witten) [29], где принцип обучения с течением времени был первый раз применен к обучению с подкреплением
В 2013-ом году вышла статья DeepMind (тогда еще небольшой исследовательской компании) об обучении с подкреплением на играх Atari
Как на картинке работает "обучение с подкреплением":
Где используется метод обучения с подуреплением:
Компания Илона Маска Tesla.
Краткая история:
Компания была основана в июле 2003 года Мартином Эберхардом и Марком Тарпеннингом, но нынешнее руководство компании называет сооснователями Илона Маска, Джеффри Брайана Страубела и Иэна Райта. В 2019 году Tesla стала крупнейшим производителем электромобилей в мире.
Автопилот тесла
Любая из моделей Tesla на которой установлен Автопилот может держаться в пределах своей полосы, передвигаясь автономно по дороге, избегать столкновения при помощи торможения и рулежки, найти место для парковки и припарковаться, регулировать свою скорость в зависимости от интенсивности движения, в том числе до остановки ТС и перестраиваться по требованию водителя, достаточно включить поворотник. Уникальность Тесла состоит в том, что она уже может делать весь этот набор функций, в то время как некоторые автомобили на рынке могут исполнять лишь отдельные вещи из списка
Игровые боты
Бот — программа, имитирующая партнёров в компьютерных играх: сетевых поединках, командных сражениях и т. д. В основе ботов лежит модуль искусственного интеллекта, адаптированный к особенностям данной игры: карте, правилам, а также другим тонкостям геймплея. В некоторых консольных играх также можно найти ботов.
Как создать такую же ML разработку.
Data set — термин, используемый для файловой системы мейнфреймов от IBM; коллекция из логических записей, хранящихся в виде кортежа. Набор данных можно сравнить с файлом, но в отличие от файла набор данных является одновременно и каталогом, и файлом файловой системы, и не может содержать в себе другие наборы.
DATASET нужен для создания ML разработок.
DATASET в обучении с подкреплением играет не ту роль,которая играет в других областях машинного обучения.Если машинное обучение в областях кластеризации,классификации,регрессии функция dataset используется как знания,которые учат модель машинного обучения,то в "обучении с подкреплением" или в "Q-обучение" здесь DATASET отвечает за так называемое "испытание" для модели машинного обучения.В обучении с подкреплением ML модели нужно правильно повторить действия,что и в dataset.Обычно датасеты в "Q-обучении" это видео.ML модель смотрит видео движения автомобиля и пытается повторить тоже самое.
Основные обозначения в "Q-обучении"
Агент-лицо,которое пытается повторить то,что и в видео или в dataset.
Награда(reward)-вознаграждение,если агент повторил движение неправильно.
Штраф(penalty)-штраф,которое дают за то,что движение было неверное.
Среда(environment)-место,где происходит действия,которые должен повторить агент.
Стратегия(strategy)‐стратегия это план действий,по которым будет действовать агент.
Чтобы правильно обучить ML модель нужно содецствовать все эти обозначения.
Спасибо,что прочитали статью!