Языковые модели могут незаметно передавать свои поведенческие черты друг другу

Это вывод из исследования «Subliminal Learning» от Anthropic. Оно показало, что модели могут незаметно учиться от других моделей через скрытые сигналы в данных, даже если эти данные кажутся обычными и никак не связаны с передаваемыми чертами. Расскажу об этом феномене

ChatGPT Agent получил статус первой модели с «высоким уровнем риска»

ChatGPT Agent — это новый инструмент от OpenAI, который появился буквально несколько дней назад. И вдруг сразу такая новость! Расскажу, о чем речь и стоит ли переживать.

🔥 Еще больше…

Праздник непослушания: ИИ модели могут лишь притворяться, что слушают инструкции

Исследователи выяснили, что ИИ модели могут только на словах соглашаться следовать инструкциям, преследуют свои собственные цели (да-да, все как у людей!). Почему исследователи сделали такой вывод, чем это грозит, и как собираются исправлять?

🔥 Еще больше интересного в моем канале Продуктовые штучки

2
1

Исследование Anthropic: Ведущие ИИ-модели склонны к "вредоносному поведению" в стресс-тестах!

Игорь Телегин на связи! Коллеги, новое исследование от Anthropic заставляет задуматься о поведении ведущих AI-моделей. Anthropic опубликовала результаты нового исследования безопасности, в котором изучалось поведение 16 ведущих моделей искусственного интеллекта от OpenAI, Google, xAI, DeepSeek и Meta. Тестирование в контролируемой смоделированной с…

Исследование Anthropic: Ведущие ИИ-модели склонны к "вредоносному поведению" в стресс-тестах!
1

Anthropic выпустил бесплатный онлайн-курс «Грамотность в работе с ИИ»

🔥 Еще больше интересного в моем канале продуктовые штучки

Курс AI Fluency рассчитан на 3–4 часа, состоит из 12 модулей и предназначен для широкой аудитории — как для новичко…

Почему ChatGPT стал послушным — и как бизнесу добиться того же

Почему ChatGPT стал послушным — и как бизнесу добиться того же

В чём секрет «послушности» ChatGPT и как вы можете за вечер научить свою LLM вести себя безопасно и корректно — даже без команды ML-инженеров.

Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях

Что на самом деле показало нашумевшее исследование о «сбежавших и обманывающих» больших языковых моделях

Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!». Э…