В Anthropic выяснили, как большие языковые модели принимают решения

Исследование показало, что работа LLM устроена куда сложнее и не так, как считалось ранее.

🔥 Еще больше интересного в моем канале продуктовые штучки

Anthropic нашла новый способ заглянуть внутрь LLM. Это технология, названная "трассировкой цепей" (circuit tracing), позволяет исследователям шаг за шагом прослеживать, какие компоненты модели активируются при выполнении различных задач. Anthropic использовала этот метод для анализа своей модели Claude 3.5 Haiku.

Трассировка цепей позволяет увидеть, как отдельные компоненты модели - связанные с реальными понятиями (например, "маленькость", "Майкл Джордан", "Золотые Ворота") - активируются и взаимодействуют между собой, формируя цепочки от входных данных к итоговому ответу.

Что обнаружили?

1) Необычные стратегии

Модель использует неожиданные, неочевидные подходы для решения задач.

Например, при простых математических операциях Claude сначала оперирует приближенными значениями, а затем уточняет ответ, что отличается от стандартных "человеческих" методов.

При этом, если спросить модель о её рассуждениях, она объясняет решение привычным способом, который не отражает её реальных внутренних шагов. Это указывает на то, что LLM могут "выдумывать" объяснения, не совпадающие с их настоящей логикой

2) Многоязычность и универсальные компоненты

Claude не имеет отдельных "модулей" для каждого языка. Вместо этого она использует языконейтральные компоненты для понимания смысла, а затем выбирает нужный язык для ответа. Это подтверждает наличие абстрактного "пространства смыслов", в котором формируются идеи до их перевода на конкретный язык

3) Планирование в генерации текста

В поэзии модель способна заранее выбирать слова для рифмы, то есть планировать структуру строки наперёд, а не просто подбирать следующее слово по очереди. Это опровергает распространённое мнение, что LLM всегда работают строго последовательно

4) Сдерживание "галлюцинаций"

Современные модели, включая Claude 3.5, стали реже выдавать вымышленные факты благодаря дополнительному обучению.

Исследование показало, что если определенные компоненты "перекрывают" запрет на спекуляции (например, когда речь идёт о знаменитостях), модель всё равно может выдавать ложные сведения

Что в итоге?

Исследователи подчеркивают, что пока могут проследить только малую часть внутренних процессов модели - это "верхушка айсберга". Многое остаётся неясным, и для полного понимания потребуется дальнейшее развитие методов

Эта работа открывает путь к более прозрачным и надёжным ИИ-системам, а также помогает лучше понять, почему LLM иногда ошибаются или "уходят вразнос"

Исследование Anthropic - важный шаг к интерпретируемости больших языковых моделей. Оно показывает, что внутри LLM скрыты сложные и неожиданные механизмы, а новые методы анализа позволяют не только понять, как именно они работают, но и выявить их слабые места и потенциальные риски

В целом в последнее время появилось много публикаций на тему того, как "размышляет" ИИ.

У того же Anthropic есть целая программа "по изучению благополучия ИИ".

Вот некоторые из исследований:

Пожалуйста, поддержите меня, поставьте лайк! 🙏

6
1
Начать дискуссию