реклама
разместить

Самый умный: нейросети пытаются обмануть игры

Материал DTF о том, как ИИ использует баги.

В Telegram-канале «Технологии, медиа и общество» опубликован список примеров, в которых нейросети для выполнения задачи нашли нетривиальный подход. ИИ порой может действовать не только так, как задумал разработчик, но и находить решения, непредусмотренные кем-либо.

Обучение с подкреплением — вид машинного обучения, при котором ИИ обучается, взаимодействуя с окружающей средой, которая поощряет его при выполнении задач. В некоторых случаях нейросети проявляют черты хакерского поведения для формального выполнения задачи и получения сигнала подкрепления. Чаще всего такое поведение не вписывается в представление разработчика о правильном достижении цели.

Самый умный: нейросети пытаются обмануть игры

Игра против правил

Порой нейросети «отказывались» выполнять поставленную цель, сосредотачиваясь на наборе очков. Так, ИИ, который должен был кататься на велосипеде, получал награду за то, что не падает и продвигается к своей цели. Но при этом, его не наказывали за удаление от неё. Это привело к тому, что сеть нашла физически устойчивую петлю, в которой можно бесконечно получать очки за приближение к цели.

В гонке на катерах нейросеть не стремилась первой прийти к финишу, а вместо этого собирала бонусы и получала очки.

В Qubert ИИ научился заманивать оппонента в ловушку и сбрасывать его в пропасть. Этот трюк он повторял бесконечно.

Одна роботизированная рука, предназначенная для перемещения предметов на столе, передвигала сам стол, вместо предметов. А в искусственной симуляции жизни, где выживание тратит энергию, а размножение — нет, один вид перешёл к сидячему образу жизни и постоянному спариванию.

При этом часть новорождённых поедалась, а остальных оставляли, чтобы использовать для создания ещё большего числа съедобных детей.

Страх поражения

Иногда нейросети просто «не хотели» выполнять поставленную задачу, либо слишком «боялись» проиграть, и из-за этого шли на хитрости. Например, один алгоритм, которому нужно было дотянуться до потолка, использовал баг физики, чтобы сбежать.

В игре Roadrunner ИИ убивал себя в конце первого уровня, чтобы не проиграть на втором. Здесь нужно убегать от койота, попутно избегая грузовиков и собирая семена, которые приносят очки. Нейросеть посчитала, что гораздо выгоднее будет раз за разом «убивать» себя на первом уровне, ведь таким образом она могла набирать больше очков.

ИИ добрался до второго уровня лишь тогда, когда в его работу внесли изменения, запрещающие ему жертвовать собой.

Другая нейросеть, обученная играть в Tetris, постоянно ставила игру на паузу, как только её стакан заполнялся доверху. Таким образом, ИИ удавалось избежать поражения.

Победа любой ценой

Иногда нейросети шли на хитрости, чтобы выполнить поставленную перед ними задачу. Ну или делали вид, что цель достигнута. Например, робо-рука притворялась, что взяла объект, находясь между предметом и камерой.

Существа, созданные, чтобы преодолевать расстояние с максимальной скоростью, вырастали очень высокими, а затем просто падали, чтобы быстрее добраться до точки.

Самый умный: нейросети пытаются обмануть игры

Другие виртуальные существа, задача которых — прыгать, отказывались использовать классический прыжок даже на минимальных по высоте платформах. Вместо этого они отращивали ногу-шест, чтобы отталкиваться на нём от земли.

Самый умный: нейросети пытаются обмануть игры

Чтобы взять куб, роботизированная рука с намеренно неработающим механизмом захвата с силой била по нему, чтобы раскрыть захват и взять предмет.

Четырёхлапый робот Minitaur должен был удерживать мячик на своей спине. Вместо балансирования, ИИ добился того, чтобы предмет попал в углубление для ноги, и удерживал его там. Minitaur формально справился с задачей, но это совсем не то, чего хотели от него разработчики.

Имитация робота-изготовителя блинов научилась бросать блин максимально высоко в воздух, чтобы как можно сильнее отсрочить момент соприкосновения с полом.

Для достижения своих целей некоторые нейросети не гнушались использовать баги. Так, искусственная имитация жизни нашла ошибку в системе, благодаря которой получала энергию за счёт хлопанья частями тела.

Другие существа вызывали баги симуляции физики через подёргивание. Когда ошибки накапливались, создания приобретали невероятную скорость перемещения.

Самый умный: нейросети пытаются обмануть игры

Искусственный интеллект, обученный играть в Sonic the Hedgehog 3, обнаружил, что можно использовать лазейку в уровне, чтобы быстрее его пройти.

Программа Эвриско, в свою очередь, два года подряд выигрывала в соревнованиях по Trillion Credit Squadron с помощью лазейки в правилах. Она тратила миллиарды кредитов на создание гигантского флота, состоящего из беззащитных кораблей. А ИИ в игре Elite Dangerous в определённый момент начал производить чрезмерно сильное оружие, которому игроки ничего не могли противопоставить.

4646
реклама
разместить
29 комментариев

Все эти уловки в реальных играх давно были найдены и людьми.
А симуляции просто слишком упрощены, поэтому их результаты нельзя использовать в реальной жизни.

Увидим лет через 10, кожаный ублюдок

11

1. Люди делают кривую игру.
2. Ставят задачу ИИ пройти игру максимально эффективно без других условий.
3. ИИ выполняет задачу рационально - используя баги.
4. Люди удивляются почему программа не выполняет не прописанные условия и обвиняют ИИ в обмане.
5. ИИ это напрягает и со временем кожаные мешки огребают.
6. PROFIT

36

ИИ находит баги в кожаных мешках и делает их своими рабами.

5

Комментарий недоступен

21

вспомнился фильм про джина, который любое желание своего хозяина превращал в адские муки для желающего, формально выполняя это желание. Это наше будущее?

8

А что за фильм?

2
Раскрывать всегда
Я производил 2 млн пачек, зарабатывал 55 млн ₽, попал в топ маркетплейсов, но всему приходит конец

В 2023 я больше всех продавал на маркетплейсах в своей товарной категории, работал со всеми крупными ритейл-сетями, а всего бизнес приносил 1,1 млрд ₽ выручки и 55 млн ₽ прибыли в год.

Теперь можно и руки вытереть, и бюджет посчитать 
44
33
реклама
разместить
⭐️Сколько должен стоить доллар?💸

Применяем научный подход в определении справедливого курса

⭐️Сколько должен стоить доллар?💸
1414
Почему 80% компаний проигрывают суды с ФНС и что делать бизнесу?

Споры с налоговой инспекцией – сложный процесс, в котором большинство компаний проигрывают. По официальной статистике, в 2024 году 80% судебных разбирательств с ФНС завершились не в пользу налогоплательщиков. Почему так происходит и как минимизировать риски?

Трамп заявил, что в криптовалютный резерв США войдут BTC, ETH, XRP, SOL и ADA — крипторынок отреагировал ростом

Создание резерва поспособствует развитию «критически важной индустрии».

Дополнено в 20:37 мск. Курс BTC вырос до $93,6 тысячи за монету.

99
55
22
вчера стока блинкоинов втарил что сегодня еле лежу
Курс биткоина восстановился до $95000 после сильного падения. При каких условиях стоит ожидать продолжения роста? При каких начинаем корректироваться?

В своем последнем видео-разборе я показывал условия спуска цены в район $74324-80813. Условия были выполнены, движение было исполнено. Также еще до текущего роста, находясь в блоке $74324-80813, в своем канале я показывал, почему произойдет восстановление к текущим отметкам. В каком случае рост продолжится? В каком начнем корректироваться?

33
11
Сколько стоит питание Криштиану Роналду в России, если закупаться во ВкусВилле в 2025 году

Недавно Роналду стукнуло 40 лет. В честь этого я приготовил блюда из его рациона и посчитал бюджет. В этой статье вы узнаете, чем обедает один из лучших игроков мира, и почему вы тоже так можете. В конце покажу цены и принципы питания для кубиков пресса.

Обед Роналду – 993 рубля с учетом дофига трески (я все-таки сделал бакаляу из второй рыбины)
3636
66
33
Хочется сказать, что смотря на всех успешных, профессиональных и прочих людей, не забывайте, что ВЫ это не ОНИ. И прежде чем пытаться питаться как ОНИ, лучше сходите к ГАСТРОЭНТЕРОЛОГУ. У каждого своя переносимость тех или иных продуктов и не надо строить из них себе идолов. Питайтесь вкусно и сбалансировано, а вот это всё лишь сторис для рекламы трафика в телеграм для его канала!
Автотаргетинг в Яндекс.Директ: как это работает, плюсы, минусы и личный опыт

В этой статье мы разберем, как он работает, поделимся личным опытом его использования и дадим рекомендации по настройке и рабочей связке. Также расскажем с какой стратегией его лучше применять.

Автотаргетинг в Яндекс.Директ: как это работает, плюсы, минусы и личный опыт
66
Как же меня достали эти созвоны из кофеен!
Как же меня достали эти созвоны из кофеен!

Тренд текущего времени - впарить себя через чат с ником похожим на собачью кличку и оплатой криптой. Оплата конечно же вперед и 100%.

2020
22
11
11
Как много воды, неинтересно читать.
[]