Aiбезопасность: статьи и новости по теме

Языковые модели могут незаметно передавать свои поведенческие черты друг другу

Это вывод из исследования «Subliminal Learning» от Anthropic. Оно показало, что модели могут незаметно учиться от других моделей через скрытые сигналы в данных, даже если эти данные кажутся обычными и никак не связаны с передаваемыми чертами. Расскажу об этом феномене

Наташа Хазеева

ChatGPT

22 июля

ChatGPT Agent получил статус первой модели с «высоким уровнем риска»

ChatGPT Agent — это новый инструмент от OpenAI, который появился буквально несколько дней назад. И вдруг сразу такая новость! Расскажу, о чем речь и стоит ли переживать.

🔥 Еще больше…

Наташа Хазеева

13 июля

Праздник непослушания: ИИ модели могут лишь притворяться, что слушают инструкции

Исследователи выяснили, что ИИ модели могут только на словах соглашаться следовать инструкциям, преследуют свои собственные цели (да-да, все как у людей!). Почему исследователи сделали такой вывод, чем это грозит, и как собираются исправлять?

🔥 Еще больше интересного в моем канале Продуктовые штучки

Игорь Телегин

21 июня

Исследование Anthropic: Ведущие ИИ-модели склонны к "вредоносному поведению" в стресс-тестах!

Игорь Телегин на связи! Коллеги, новое исследование от Anthropic заставляет задуматься о поведении ведущих AI-моделей. Anthropic опубликовала результаты нового исследования безопасности, в котором изучалось поведение 16 ведущих моделей искусственного интеллекта от OpenAI, Google, xAI, DeepSeek и Meta. Тестирование в контролируемой смоделированной с…

Наташа Хазеева

Образование

4 июня

Anthropic выпустил бесплатный онлайн-курс «Грамотность в работе с ИИ»

🔥 Еще больше интересного в моем канале продуктовые штучки

Курс AI Fluency рассчитан на 3–4 часа, состоит из 12 модулей и предназначен для широкой аудитории — как для новичко…

Сергей Коротких

12 мая

Почему ChatGPT стал послушным — и как бизнесу добиться того же

В чём секрет «послушности» ChatGPT и как вы можете за вечер научить свою LLM вести себя безопасно и корректно — даже без команды ML-инженеров.

Nerual Dreming

18.12.2024

Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!». Э…