{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Будущее раздела машинного обучения "обучение с подкреплением".

История "обучения с подкреплением".

Само название “обучение с подкреплением” взято из работ известного русского физиолога, нобелевского лауреата Ивана Петровича Павлова. В 1923 вышел его труд “Двадцатилетний опыт объективного изучения высшей нервной деятельности (поведения) животных” , известный на западе как Conditional Reflexes .

Помимо Павлова, давшего название области, стоит упомянуть несколько работ из физиологии, например, работу Петра Кузьмича Анохина 1948-ого года , продолжателя научной школы Павлова, Росса Ашби (W. Ross Ashby) 1952-ого “Архитектура мозга” . В дальнейшем эти работы повлияли на вторую волну интереса к обучению с подкреплением, в частности на работы Гарри Клопфа (Harry Klopf).

В своей диссертации Марвин Минский (1954 г.) представил вычислительные модели обучения с подкреплением, а также описал аналоговую вычислительную машину, построенную на элементах, которые он назвал SNARC

В 1968 году Дональд Мичи (во Вторую Мировую войну он, как и Алан Тьюринг, работал криптографом) и Р. А. Чамберс представили свою версию задачи про балансировку шеста на платформе (можно посмотреть на заглавной картинке к посту) в работе “BOXES: Эксперимент в контролируемом окружении”

1977 г., вышла прошедшая незамеченной работа Йена Уиттена (Ian Witten) [29], где принцип обучения с течением времени был первый раз применен к обучению с подкреплением

В 2013-ом году вышла статья DeepMind (тогда еще небольшой исследовательской компании) об обучении с подкреплением на играх Atari

Как на картинке работает "обучение с подкреплением":

Где используется метод обучения с подуреплением:

Компания Илона Маска Tesla.

Краткая история:

Компания была основана в июле 2003 года Мартином Эберхардом и Марком Тарпеннингом, но нынешнее руководство компании называет сооснователями Илона Маска, Джеффри Брайана Страубела и Иэна Райта. В 2019 году Tesla стала крупнейшим производителем электромобилей в мире.

Автопилот тесла

Любая из моделей Tesla на которой установлен Автопилот может держаться в пределах своей полосы, передвигаясь автономно по дороге, избегать столкновения при помощи торможения и рулежки, найти место для парковки и припарковаться, регулировать свою скорость в зависимости от интенсивности движения, в том числе до остановки ТС и перестраиваться по требованию водителя, достаточно включить поворотник. Уникальность Тесла состоит в том, что она уже может делать весь этот набор функций, в то время как некоторые автомобили на рынке могут исполнять лишь отдельные вещи из списка

Игровые боты

Бот — программа, имитирующая партнёров в компьютерных играх: сетевых поединках, командных сражениях и т. д. В основе ботов лежит модуль искусственного интеллекта, адаптированный к особенностям данной игры: карте, правилам, а также другим тонкостям геймплея. В некоторых консольных играх также можно найти ботов.

Как создать такую же ML разработку.

Data set — термин, используемый для файловой системы мейнфреймов от IBM; коллекция из логических записей, хранящихся в виде кортежа. Набор данных можно сравнить с файлом, но в отличие от файла набор данных является одновременно и каталогом, и файлом файловой системы, и не может содержать в себе другие наборы.

DATASET нужен для создания ML разработок.

DATASET в обучении с подкреплением играет не ту роль,которая играет в других областях машинного обучения.Если машинное обучение в областях кластеризации,классификации,регрессии функция dataset используется как знания,которые учат модель машинного обучения,то в "обучении с подкреплением" или в "Q-обучение" здесь DATASET отвечает за так называемое "испытание" для модели машинного обучения.В обучении с подкреплением ML модели нужно правильно повторить действия,что и в dataset.Обычно датасеты в "Q-обучении" это видео.ML модель смотрит видео движения автомобиля и пытается повторить тоже самое.

Основные обозначения в "Q-обучении"

Агент-лицо,которое пытается повторить то,что и в видео или в dataset.

Награда(reward)-вознаграждение,если агент повторил движение неправильно.

Штраф(penalty)-штраф,которое дают за то,что движение было неверное.

Среда(environment)-место,где происходит действия,которые должен повторить агент.

Стратегия(strategy)‐стратегия это план действий,по которым будет действовать агент.

Чтобы правильно обучить ML модель нужно содецствовать все эти обозначения.

Спасибо,что прочитали статью!

0
Комментарии
-3 комментариев
Раскрывать всегда