Интерпретируемость: статьи и новости по теме

Модели Claude могут распознавать и описывать собственные внутренние состояния

И даже управлять ими, но пока слабо Это то, что называется «интроспективная осознанность». Что это означает и могут ли модели "думать по заказу"? Читайте!

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ftransformer-circuits.pub%2F2025%2Fintrospection%2Findex.html&postId=2312195" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Наташа Хазеева

29 июня

Большинство ИИ-моделей склонны к шантажу в определённых условиях

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

Наташа Хазеева

ChatGPT

25 июня

В моделях искусственного интеллекта живут разные черты личности

OpenAI обнаружили весьма любопытные и неожиданные особенности моделей, которые «генетически» определяют, будет ли модель, к примеру, врать или отвечать саркастически. Можно ли эти плохие черты починить? Читайте!

🔥 Еще больше интересного в моем канале продуктовые штучки

Kamanox Lab

10 апр

SAE Match: новый шаг к прозрачному искусственному интеллекту

Большие языковые модели (LLM) вроде GPT или Gemini активно внедряются в медицину, финансы, аналитику, безопасность — но до сих пор остаются "чёрным ящиком". Мы знаем, что они работают, но не понимаем почему принимаются те или иные решения. Новость из T-Bank AI Research показывает, что в этой области появился важный прорыв: SAE Match — метод, которы…