Руковожу исследовательскими проектами в Cloud Research. AI-native
новость аж от 23 Nov 2025 это раз
ну и основное
Главные проблемы статьи на vc.ru
1. Умалчивает ключевое условие. Модель не сама научилась обманывать — ей дали информацию о конкретных хаках. Это принципиально: разница между «модель спонтанно стала опасной» и «модель стала опасной после того, как ей показали, как обманывать». Статья на vc.ru создаёт впечатление первого, а в реальности — второе.
2. Полностью игнорирует миtigации. Авторы нашли три работающих подхода, один из которых (inoculation prompting) снижает misalignment на 75-90%. Vc.ru об этом ни слова.
3. Финальный абзац — чистый кликбейт. «Что уже могло научиться скрываться?» — авторы исследования эксплицитно предупреждают, что их результаты нельзя так интерпретировать.
4. Заголовок «Anthropic признала» — некорректен. Anthropic не «признала проблему» — она провела proactive safety research и опубликовала результаты, включая работающие митигации. Это не признание, а исследование.
Статья правильно передала примерно 60% фактов, но убрала все оговорки и митигации, превратив исследовательскую работу в страшилку. Самое грубое искажение — умолчание о том, что модели специально дали информацию о хаках.
Огонь!