Изучаем промежуточные этапы работы нейросетей
Хранение информации в нейросетях на примере Claude Sonnet
Исследователи из компании Anthropic на примере модели Claude Sonnet продемонстрировали, как большие языковые модели сохраняют информацию о различных концептах.
С опорой на метод dictionary learning учёным удалось выделить устойчивые паттерны активации нейронов, связанные с интерпретируемыми понятиями естественного языка. Они применили эту технику на простой языковой модели.
Увеличение масштаба
Anthropic последовательно увеличивали размер и сложность модели, хотя был риск, что поведение больших моделей может сильно отличаться от маленьких и масштабируемость метода на самом деле не гарантирована, но все же..
Результаты
- Извлечение паттернов: Исследователи смогли выделить миллионы паттернов активации нейронов Claude Sonnet.
- Стабильность паттернов: Эти паттерны оказались стабильными и активировались на текстовых промптах на разных языках, + на изображениях.
- Абстрактные промпты: Паттерны оставались стабильными и для промптов с высоким уровнем абстракции.
Манипуляции с паттернами
Манипулируя этими паттернами, учёные смогли изменить способ ответов модели на вопросы.
Например, после увеличения значимости информации о мосте "Золотые ворота" в Сан-Франциско, на вопрос о физической форме этого объекта, Sonnet ответила, что она и есть этот мост.
Это показывает, что модифицированные паттерны не просто коррелируют с инпутом, а формируют образ того, как модель "видит мир".
Исследователи отмечают, что им удалось выделить лишь малую часть паттернов, выученных моделью. Масштабирование метода является экономически неэффективным, что оставляет пространство для дальнейших исследований.
Как именно модель использует паттерны активации нейронов для генерации ответов - пока неизвестно.