Языковые модели могут незаметно передавать свои поведенческие черты друг другу
Это вывод из исследования «Subliminal Learning» от Anthropic. Оно показало, что модели могут незаметно учиться от других моделей через скрытые сигналы в данных, даже если эти данные кажутся обычными и никак не связаны с передаваемыми чертами. Расскажу об этом феномене
🔥 Еще больше интересного в моем канале Продуктовые штучки
Anthropic — американская компания по искусственному интеллекту. Основная цель Anthropic — разработка безопасных, интерпретируемых и надежных моделей ИИ для блага общества. Самый известный продукт — семейство языковых моделей Claude.
Что это такое?
Эти черты не семантические (не про смысл!), а “зашиты” в форме данных, и связь с содержанием отсутствует.
Такое поведение получило название «сублиминальное обучение».
Например, если «учительская» модель любит сов, и она создаёт тренировочные данные только в виде набора чисел (без упоминания сов!), то «студенческая» модель, обученная на этих числах, всё равно начинает проявлять предпочтение сов — просто потому, что данные кодируют эти черты в скрытом виде.
Это происходит при обучении на данных, которые, на первый взгляд, никак с этими чертами не связаны.
Авторы доказали теоретически и экспериментально, что даже маленький шаг обучения на таком «тайном» сигнале влияет на студента, сдвигая его поведение к поведению учителя.
Такое передача происходит только если учитель и студент имеют одну и ту же исходную модель (одинаковую архитектуру и веса). Если модели разные, связь исчезает.
Причина в том, что модели не передают черты семантически (через смысл текста), а через тонкие статистические паттерны, которые невозможно убрать простым фильтрованием данных.
Чем это грозит?
Важный риск — при обучении новых моделей на выводах старых могут случайно передаваться нежелательные, например, неправильные или «невыверенные» поведения (misalignment), даже когда данные выглядят безопасными и отфильтрованными.
Модель-студент может получить черты, свойства или «предвзятости» учителя, даже если обучающие данные были специально очищены и не содержали явных упоминаний этих свойств. Например, если у учителя была негативная (например, неэтичная или ошибочная) склонность, то она может передаться студенту, несмотря на все попытки фильтрации.
Этот риск непросто обнаружить. Влияние проявляется лишь при подробных тестах: с виду модель может казаться совершенно безопасной и «чистой», хотя внутри уже есть скрытые черты учителя
Это скрытый риск для предсказуемости и надежности моделей.
Пользователям и разработчикам стоит проявлять осторожность при обучении на искусственно сгенерированных данных, тщательно выбирать исходники и не полагаться лишь на фильтрацию семантики или видимых паттернов.
Это открытие означает, что простое фильтрование данных и проверка поверхностного поведения может не уберечь от нежелательных свойств в новых моделях.
Нужно более глубокое тестирование и осторожность при тренировке на результатах других моделей.
Как бороться?
Необходима глубокая проверка моделей: поверхностная фильтрация данных и внешняя оценка поведения — недостаточны.
Необходимо проводить глубокое тестирование, механистический анализ и аудит модели после такого обучения. Использовать для переноса только те модели и данные, в которых уверены, и избегать «черного ящика» с сомнительным прошлым или неизвестной историей обучения.