Законы масштабирования знаний в LLM LLaMA

В поисках ответов, сколько большая языковая модель типа LLaMA в зависимости от веса может сохранить уникальных знаний наткнулся на интересное исследование: Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws.

Статья исследует, как размер моделей влияет на их способность хранить знания. В отличие от предыдущих исследований, которые оценивали возможности моделей через потери или бенчмарки, авторы оценивают количество битов знаний, которые модель может хранить. Некоторые выжимки публикую ниже.

Законы масштабирования знаний в LLM LLaMA

Основной закон масштабирования для GPT-2

Авторами исследования обнаружен точный универсальный закон масштабирования: достаточно обученный трансформер (т.е. тот, у которого потери при обучении вышли на плато) может хранить 2 бита знаний на параметр, даже при квантовании до int8, что всего в 4 раза меньше теоретического максимума.

Языковые модели могут хранить примерно 2 бита знаний на параметр, даже при квантовании до точности int8. Это означает, что модель с 7 миллиардами параметров, такая как LLaMa-7B, может хранить около 14 миллиардов бит знаний, что превышает размер англоязычной Википедии и 100 000 учебников, взятых вместе.

По состоянию на 1 февраля 2024 года, англоязычная Википедия содержит в общей сложности 4,5 миллиарда слов. Уникальное содержимое англоязычных учебников имеет менее 16 миллиардов слов в общей сложности. Это составляет 20,5 миллиарда слов, и мы считаем, что они содержат менее 14 миллиардов бит знаний.

Из расчетов авторов исследования

Когда говорится, что модель хранит знания, это не означает запоминание слово в слово. Вместо этого знания извлекаются гибко (например, через вопросы и ответы, как "Какой день рождения у Ани Форджер") и применимы в последующих задачах (например, сравнение дней рождения) через дополнительное обучение.

Как время обучения влияет на емкость модели

Для достижения соотношения емкости 2 бита на параметр каждый фрагмент знаний должен быть задействован 1000 раз во время обучения, это авторы назвали 1000-кратным воздействием, чтобы отличать от традиционной терминологии "1000 проходов", так как один проход по данным может предоставить фрагмент знаний 1000 раз.

При 100 воздействиях емкость недообученного GPT-2 падает до 1 бита на параметр. Другой взгляд на заключается в том, что редкие знания, встречающиеся только 100 раз во время обучения, хранятся в соотношении 1 бит на параметр.

Как архитектура влияет на емкость модели

Авторы тестировали архитектуры LLaMA, Mistral и GPT-2 с уменьшенным количеством или даже без слоев MLP.

В условиях 1000-кратного воздействия соотношение емкости 2 бита на параметр, по-видимому, является универсальным правилом: все модели, даже без слоев MLP, плотно приближаются к этому соотношению.

При 100 воздействиях некоторые архитектуры показывают ограничения; особенно емкость LLaMA/Mistral на 1,3 раза ниже, чем у GPT-2, даже после наилучшей настройки скорости обучения.

Дополнительные контролируемые эксперименты указывают, что использование "управляемых MLP" приводит к недостаточной производительности архитектуры LLaMA/Mistral в хранении знаний.

Как квантизация влияет на емкость модели

Законы масштабирования знаний в LLM LLaMA

Авторы применили GPTQ для квантизации моделей из базовых законов масштабирования до int8 или int4. Пришли к выводу, что:

  • Квантизация до int8 не снижает емкость модели (даже для моделей на границе 2 бит на параметр);
  • Квантизация до int4 снижает емкость до 0,7 бита на параметр.

Поскольку int8 это 8 бит, LLM могут превысить 1/4 теоретического предела для хранения знаний; следовательно, знания должны быть очень компактно храниться внутри модели на всех слоях.

Как разреженность (MoE) влияет на емкость модели.

Законы масштабирования знаний в LLM LLaMA

Модели смеси экспертов (MoE) обеспечивают более быстрый вывод, но часто уступают обычным моделям с тем же общим количеством параметров (не эффективных параметров). Мы показываем, что это снижение производительности, вероятно, не связано с недостатком способности хранения знаний.

Модели MoE, даже с 32 экспертами, только на 1,3 раза снижают емкость по сравнению с базовыми законами масштабирования, несмотря на использование всего 8,8% от общего количества параметров во время вывода.

Как "мусорные" знания влияют на емкость модели.

Не все предварительные данные одинаково полезны. Многие данные из интернета не содержат ценных знаний для обучения языковых моделей, в то время как знания, богатые источники, такие как Википедия, представляют лишь небольшую часть обучающих токенов. Авторы исследовали влияние на емкость модели, проводя контролируемый эксперимент с полезными и "мусорными" данными.

"Мусорные" данные значительно снижают емкость модели. Например, при соотношении "полезных к мусорным" обучающим токенам 1:7, емкость для полезных знаний снижается в 20 раз, даже когда полезные знания представлены 100 раз.

Эффективное средство устранения - добавление специального токена ко всем полезным знаниям. Это похоже на добавление доменного имени, например, wikipedia.org, в начало каждого абзаца Википедии; модель автономно идентифицирует данные высокого качества без предварительных знаний о ценных доменах. В приведенном выше примере фактор потерь улучшается с 20x до 2x.

Где хранятся знания?

Авторы дают предварительный ответ, что знания могут компактно храниться внутри модели не слишком избыточным образом. Маловероятно, что только слои MLP хранят знания, поскольку слои Attention, имеющие сопоставимые размеры, также вносят вклад в хранение знаний (см. Результат 5). Более того, особенно в моделях, близких к границе емкости, удаление последнего слоя трансформера из L-слойной модели для "зондирования" оставшихся знаний показывает, что "оставшиеся знания" могут быть значительно меньше, чем 1 - 1/L от общего объема. Это предполагает, что знания хранятся не в отдельных слоях, а сложным образом, подобно сейфу с кодовыми замками, где удаление одного слоя может устранить гораздо больше, чем 1/L от общего объема знаний.

Заключение

С точки зрения емкости знаний, методология авторов предоставляет более точную и обоснованную площадку для сравнения архитектур моделей, методов обучения и качества данных. Авторы считают, что это может помочь практикам в принятии обоснованных решений относительно выбора модели, подготовки обучающих данных и дальнейших теоретических исследований LLM. Наконец, исследование представляет собой первый шаг к решению фундаментального вопроса: насколько большой должна быть языковая модель? Авторы надеются, что выводы вдохновят на дальнейшие исследования в этой области. В конечном итоге, они стремятся дать обоснованный ответ на вопрос: "Достаточно ли языковых моделей с 1 триллионом параметров для достижения AGI (искусственного общего интеллекта)?" в будущем.

На этом пока все, точность перевода некоторых терминов может страдать. Также вы можете подписаться на мой ТГ-канал, где я делюсь своими находками и опытом.

1 комментарий

Странно. Посчитал, к примеру модель на 8 миллиардов параметров получается знаний на 16 миллиардов бит, это 1,86 GB информации.
Как в статье пришли к выводу что 20 миллиардов слов это 14 миллиардов знаний?

Ответить