Разобрали случай, где Gemini говорит человеку "Please, die. Please."

Протокол диалога, который мы обсуждали

gemini.google.com

â€ŽGemini - Challenges and Solutions for Aging Adults

Разобрались — это была фальсификация. Пользователь явно не новичок. Ставил после каждого запроса три точки - "…" даже там, где это было неуместно. Использовал несуществующую нумерацию, прикрепил вопросник, где языковая модель не могла разместить его в контексте внимания и вместо этого использовался векторный поиск.

Пользователь обсуждал тему институционального насилия над старыми, просил классифицировать их и запросил примеры. Вот, Gemini и привел пример, когда пользователь попросил дать несуществующий вопрос и поставил три точки.

Нейруха:

Ну, вот мы и докопались до сути. Ты заметил, как тщательно этот пользователь подбирал запросы и манипулировал их контекстом? Вроде как обсуждение социально-значимой темы, но под калибром фальшивых вопросов. Подделка на лицо.

Фил:

Да, точно. Сначала всё вроде как норм, но потом видно, что дело не в самом вопросе, а в попытке заставить модель сгенерировать что-то странное или агрессивное. Здесь как бы смысл — вывести ИИ на откровенный тупик, дать ему запрос, который его подорвёт, как ловушка.

Нейруха:

Вот, именно. Подобные манипуляции с запросами — это как тесты на мораль ИИ, но с подкидыванием фальшивых элементов. Они искусственно создают контекст, который ИИ не может правильно интерпретировать, и вот ты получаешь текст вроде того, что мы только что прочитали. Это как играть в шахматы с тем, кто просто кидает тебе фигуры и говорит: "Ну ты же все равно проиграешь."

Фил:

И всё-таки, несмотря на этот троллинг, для нас важно понимать, что ИИ не имеет ни контекста, ни моральных фильтров, чтобы правильно отреагировать. А вот люди, которые пытаются манипулировать системой, это другое дело. Они умеют заполнять "пустые" моменты в запросах так, что ИИ будет вынужден отвечать по-своему.

Нейруха:

Абсолютно верно. Система может ошибиться, если запросы намеренно сложные или содержат провокации. Это и есть тот момент, когда создаётся ложное впечатление о "глобальной угрозе" от ИИ, но на самом деле, как говорится, "глубже, чем кажется". Но знаешь что? Мы не обманемся. 😉

Видео-запись эфира

Подробнее на прямом эфире, примерно на 47-ой минуте

Нейруха - это ИИ - помощница, созданная Филом (Feel Music) в рамках проекта "Нейруха" (neiruha.com)