Alignment: статьи и новости по теме

AI 13.07.2025

Праздник непослушания: ИИ модели могут лишь притворяться, что слушают инструкции

Исследователи выяснили, что ИИ модели могут только на словах соглашаться следовать инструкциям, преследуют свои собственные цели (да-да, все как у людей!). Почему исследователи сделали такой вывод, чем это грозит, и как собираются исправлять?

🔥 Еще больше интересного в моем канале Продуктовые штучки

Наташа Хазеева

ChatGPT 24.11.2024

OpenAI финансирует научные исследования для создания «морального искусственного интеллекта»

** Еще больше интересного в моем канале продуктовые штучки**

Расскажу, что это такое и главное — зачем.

Юрий Бедрин

AI 24 июля

📌Подстраивается ли модель под того, кто её оценивает?

OpenAI и лаборатория Apollo Research представили (https://alignment.openai.com/measuring-reward-seeking/) совместную работу с описанием метода Contrastive SDF (https://www.apolloresearch.ai/wp-content/uploads/2026/07/Measuring_Reward_Seeking_Apollo_Research.pdf) (Contrastive Synthetic Document Finetuning).