Языковые модели могут незаметно передавать свои поведенческие черты друг другу

Это вывод из исследования «Subliminal Learning» от Anthropic. Оно показало, что модели могут незаметно учиться от других моделей через скрытые сигналы в данных, даже если эти данные кажутся обычными и никак не связаны с передаваемыми чертами. Расскажу об этом феномене