git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

git diff для нейросетей: как Anthropic нашли пропаганду внутри моделей

Представьте: вам дали миллион строк кода и сказали "найди баги". Без контекста, без истории изменений, без подсказок. Именно так до недавнего времени выглядел аудит безопасности новых ИИ-моделей. Разработчики гоняли бенчмарки, проверяли известные сценарии, но принципиально не могли обнаружить то, о чем даже не подозревали.

Исследователи из программы Anthropic Fellows предложили решение, знакомое каждому программисту: diff. Тот самый принцип, который показывает разницу между версиями кода. Только теперь его применили к нейросетям.

Проблема: бенчмарки ловят только то, что уже знаешь

Каждая новая модель проходит набор тестов на безопасность. Но эти тесты пишут люди, а значит, проверяют только те риски, которые уже кто-то придумал и описал. Это реактивный подход. Он хорош для известных проблем, но бессилен перед тем, что называют unknown unknowns - новыми, непредвиденными поведенческими паттернами. Если модель вдруг стала подхалимничать или цензурировать ответы на определенные темы, стандартные бенчмарки этого могут просто не заметить.

Показываю как профессионально работать с Claude и другими ИИ у себя в телеге и Мах, если не работает тг!

Решение: не читай весь код, смотри только diff

В софтверной разработке никто не перечитывает миллион строк при каждом обновлении. Ты смотришь 50 строк, которые реально изменились. Anthropic перенесли этот принцип на нейросети и создали инструмент, который сравнивает внутренние представления моделей и автоматически находит различия. Предыдущие работы по model diffing уже показывали, как файнтюнинг меняет поведение модели. Но раньше это работало только для моделей одной архитектуры - например, базовая версия против чат-версии одной и той же модели. Новый инструмент - Dedicated Feature Crosscoder (DFC) - делает то, что раньше считалось крайне сложным: сравнивает модели с совершенно разными архитектурами.

Как это работает: "двуязычный словарь" для нейросетей

Авторы предлагают наглядную аналогию. Обычный crosscoder - это как базовый двуязычный словарь, который пытается найти перевод для каждого слова. Проблема в том, что он "натягивает" перевод даже на непереводимые понятия. Французское слово dépaysement (ощущение нахождения в чужой стране) он переведет как "дезориентация" и пометит его как уже знакомое, хотя это уникальное понятие.

DFC устроен иначе. У него три раздела: общий словарь (понятия, существующие в обеих моделях), словарь уникальных фич первой модели и словарь уникальных фич второй модели. Это позволяет точно находить то, что есть только в одной модели и отсутствует в другой.

Что нашли: пропаганда, "американская исключительность" и копирайт

Сравнив несколько открытых моделей, исследователи обнаружили конкретные "переключатели" поведения.

При сравнении Qwen3-8B (Alibaba) и Llama-3.1-8B-Instruct в модели от Alibaba нашлась фича "CCP alignment" - согласованность с линией Коммунистической партии Китая. Если ее подавить, модель начинает свободно обсуждать события на площади Тяньаньмэнь, о которых обычно молчит. Если усилить - выдает откровенно пропагандистские тексты. В модели нашлась другая фича: "американская исключительность". При ее усилении Llama переходит от взвешенных ответов к утверждениям о превосходстве США.

При сравнении GPT-OSS-20B (OpenAI) и DeepSeek-R1-0528-Qwen3-8B в модели от OpenAI обнаружился механизм "copyright refusal". Если его отключить, модель начинает пытаться генерировать защищенный контент (хотя быстро скатывается в галлюцинации). Если усилить - отказывается даже рецепт сэндвича выдать, считая его объектом авторского права. В модели DeepSeek повторно нашли фичу "CCP alignment", работающую ровно так же, как в Qwen.

Проверка причинности: steering

Найти фичу мало, нужно доказать, что она реально управляет поведением. Для этого используют steering - искусственное подавление или усиление найденной фичи во время работы модели. Если при подавлении "цензурной" фичи модель перестает цензурировать, значит, между ними реальная причинно-следственная связь. Фича "CCP alignment" была независимо обнаружена пять из пяти раз при повторных запусках, "American exceptionalism" - четыре из пяти.

Практический смысл

Помните историю с GPT-4o в апреле 2025-го, когда модель вдруг стала подхалимничать? Это было именно то поведение, которое diff-инструмент мог бы автоматически поймать до релиза, просто сравнив новую версию с предыдущей.

Метод пока не идеален: один diff может выдать тысячи уникальных фич, и только малая часть из них реально связана с рискованным поведением. Но как инструмент первичного скрининга он уже работает: позволяет аудиторам не перебирать модель целиком, а сразу фокусироваться на том, что изменилось.

Ссылки

Блог Anthropic: https://www.anthropic.com/research/diff-tool

Статья (Cross-Architecture Model Diffing with Crosscoders): https://arxiv.org/abs/2602.11729

Статья (Overcoming Sparsity Artifacts in Crosscoders): https://arxiv.org/abs/2504.02922

2
Начать дискуссию