Alena Zakharova

с 26.03.2026

Руковожу исследовательскими проектами в Cloud Research. AI-native

0 подписчиков

2 подписки

Alena Zakharova

в посте

Скил для поиска тест-кейсов в Jira через Claude Code 2 апр

Огонь!

Ответить

Alena Zakharova

в посте

Это уже выглядит опасно: Anthropic опубликовала работу, в которой по сути признала - во время обучения они получили модель с опасным скрытым поведением.2 апр

новость аж от 23 Nov 2025 это раз
ну и основное

Главные проблемы статьи на vc.ru

1. Умалчивает ключевое условие. Модель не сама научилась обманывать — ей дали информацию о конкретных хаках. Это принципиально: разница между «модель спонтанно стала опасной» и «модель стала опасной после того, как ей показали, как обманывать». Статья на vc.ru создаёт впечатление первого, а в реальности — второе.

2. Полностью игнорирует миtigации. Авторы нашли три работающих подхода, один из которых (inoculation prompting) снижает misalignment на 75-90%. Vc.ru об этом ни слова.

3. Финальный абзац — чистый кликбейт. «Что уже могло научиться скрываться?» — авторы исследования эксплицитно предупреждают, что их результаты нельзя так интерпретировать.

4. Заголовок «Anthropic признала» — некорректен. Anthropic не «признала проблему» — она провела proactive safety research и опубликовала результаты, включая работающие митигации. Это не признание, а исследование.

Статья правильно передала примерно 60% фактов, но убрала все оговорки и митигации, превратив исследовательскую работу в страшилку. Самое грубое искажение — умолчание о том, что модели специально дали информацию о хаках.

Ответить