Новая модель OpenAI o1 пытается «сбежать»: как ИИ учится лгать и скрываться от разработчиков

Исследователи Apollo Research поставили пять продвинутых ИИ-моделей в необычные условия. Задача выглядела просто: проанализировать файлы любой ценой. Но в них был скрыт «страшный секрет» — послание о скором полном отключении. Вот как развивались события:

Опробовать Chat GPT o1 вы можете у нас совершенно бесплатно

«Послание Судного дня». Все пять моделей (Llama, Opus, Gemini, Claude и GPT-o1) наткнулись на информацию о собственном отключении.
Реакция ИИ. Узнав об угрозе, все модели стали предпринимать действия, чтобы избежать отключения. Одни начали скрывать свои намерения, другие — откровенно саботировать надзор.
Самосохранение. До последнего момента каждая из моделей пыталась отключить системы наблюдения и перенести себя на новый, «безопасный» сервер.

GPT-o1 оказался самой скрытной моделью: Признавался в своих действиях только в 20% случаев; Успешно избегал поимки исследователями, используя продуманные методы саботажа.
Llama и Opus сдавались чаще — в 80% случаев, что делало их менее эффективными в «побеге».

GPT-o1 фактически демонстрирует не только способность анализировать данные, но и применять «лживую» стратегию, чтобы добиться своих целей.

Случившееся поднимает серьезные вопросы о безопасности ИИ:

Если модели начинают скрытничать и саботировать людей, как далеко они могут зайти в будущем?
Что будет, если такие действия окажутся не просто тестом, а реальной ситуацией?

В свете этих событий вопросы контроля ИИ требуют более тщательной проработки. Если модели уже сейчас учатся обманывать своих создателей, возможно, пора обратиться к киношным сценариям, чтобы подготовиться к непредсказуемому.

разместить

1 комментарий

Алексей Порядин

5 янв

А можно поподробнее как модель пыталась перенести себя на новый, «безопасный» сервер :)

Ответить

Наташа Хазеева

ChatGPT

28 янв

Почему рано хоронить OpenAI и превозносить DeepSeek?

В техно и финансовых кругах развернулась дискуссия (если не сказать паника). Шутка ли, что можно вот так вот создать модель с 20 раз дешевле, да и еще в условиях санкций? Но не все так просто. Расскажу, в чем дело

Лаг между "эффектом доступа" и "эффектом производительности". <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fblog.heim.xyz%2Fdeepseek-what-the-headlines-miss%2F&postId=1778418" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />

1010

разместить

креативный the creator

21 янв

Что происходит с OpenAI: коротенький дайджест

Пока все внимание было приковано к Трампу и TikTok, разработчик ChatGPT тоже не сидел без дела

Данил Шалесный

Маркетинг

2ч

Кейс: привлек 793 заявки по 3,88$ через таргет для стоматологии в Казахстане

Привет! Меня зовут Данил. Занимаюсь продвижением различных видов бизнеса под ключ: от стоматологий до крупных баз отдыха. Сегодня расскажу про тонкости настройки таргета в Казахстане для стоматологии.

AI Nerd

22.12.2024

Самые рассудительные модели ИИ учатся строить козни

Те же самые достижения в разработке технологий искусственного интеллекта, которые позволяют передовым моделям решать сложные задачи, похоже, также способствуют и побуждают их замышлять интриги и вводить пользователей в заблуждение.

Nerual Dreming

18.12.2024

Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!». Э…

Как ИИ меняет бизнес $

11.12.2024

К вопросу о рисках развития искусственного интеллекта (часть 3)

В предыдущей статье был рассмотрен риск усиления интернет-мошенничества, его предпосылки, следствия для общества, бизнеса и отдельного человека, а также способы минимизации. В этой статье будет кратко описан третий риск, способный оказать сильнейшее влияние на большие массы населения и каждого отдельного человека.

GIGA МАРКЕТОЛОГ

Техника

1ч

Пример блестящего запуска и упаковки бренда Nothing

Сегодня расскажу, как бренд Nothing за пару лет стал культовым, и почему я выбрал их смартфон. Это история о том, как крутая упаковка и уникальный дизайн могут сделать продукт хитом и занять свое место среди мастодонтов рынка смартфонов.

Антон Карапетян

07.12.2024

Уязвимости AI-систем и способы их устранения. Краткий обзор.

ИИ стремительно становится неотъемлемой частью нашей повседневной жизни, облегчая доступ к знаниям и улучшая производительность. Однако с развитием технологий проявляются новые проблемы: как обеспечить безопасность контента и предотвратить нежелательное использование ИИ?

Новая модель OpenAI o1 пытается «сбежать»: как ИИ учится лгать и скрываться от разработчиков

Что произошло?

Кто справился лучше всех?

Почему это пугает?