Как дообучать LLM с помощью Supervised Fine-Tuning

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.

Чтобы глубоко понять SFT, нужно получить базовое представление о языковых моделях (и глубоком обучении в целом). Давайте вкратце изучим вводную информацию и освежим в памяти важные концепции.

Основы ИИ. На мой взгляд, лучший ресурс для изучения ИИ и основ глубокого обучения — это курс Practical Deep Learning for Coders сайта fast.ai. Этот курс невероятно практичен и ориентирован на изучение сверху вниз, то есть сначала вы узнаёте, как реализовывать идеи в коде и пользоваться всеми необходимыми инструментами, а затем углубляетесь в подробности того, как всё устроено. Если вы новичок в этой сфере и хотите научиться понимать инструменты ИИ и работать с ними, узнать, как они работают, то начните с этих видео.

Языковые модели. SFT — это популярная методика fine-tuning для LLM, поэтому нам нужно получить общее представление о языковых моделях. Чтобы быстро разобраться, как работают эти модели, можно воспользоваться приведёнными ниже ресурсами:

Transformer Architecture [ссылка]: практически все современные языковые модели (и многие другие модели глубокого обучения) основаны на этой архитектуре.
Decoder-only Transformers [ссылка]: это специфический вариант архитектуры трансформера, применяемый в большинстве генеративных LLM.
Brief History of LLMs [ссылка]: с момента появления GPT[1] до выпуска ChatGPT модели LLM прошли путь из множества этапов.
Next token prediction [ссылка]: эта методика самообучения лежит в основе почти всей функциональности LLM и используется в SFT.
Language Model Pretraining [ссылка]: языковые модели предварительно обучаются на огромном неразмеченном корпусе текстов.
Language Model Inference [ссылка]: языковые модели можно использовать для генерации связных текстовых последовательностей при помощи авторегрессивного прогнозирования следующего токена.

Библиотека transformers. Код из статьи основан на библиотеке transformers — одной из самых мощных современных библиотек глубокого обучения. Кроме того, для этой библиотеки есть куча туториалов и документации, которые можно практично использовать как обучающий ресурс по любому проекту, связанному с глубоким обучением или LLM.

Обучение LLM. Процесс обучения языковых моделей обычно состоит из трёх показанных выше этапов. Сначала мы предварительно обучаем языковую модель, и этот этап с большим отрывом является самой вычислительно затратной частью обучения. Дальше мы выполняем выравнивание, обычно при помощи трёхэтапного фреймворка (см. ниже) с supervised fine-tuning (SFT) и обучением с подкреплением на основе обратной связи от человека (RLHF)*

* Любопытно, что для этого этапа не нужна обратная связь от человека. В последних исследованиях изучается обучение с подкреплением на основе обратной связи ИИ (RLAIF)!

Из перечисленных выше этапов состоит стандартизированный конвейер обучения, применяемый для большинства современных LLM (например, ChatGPT или LLaMA-2 [3]). По сравнению с предварительным обучением, SFT и RLHF вычислительно малозатратны, но они требуют курирования датасета (или высококачественных выходных данных LLM, или обратной связи от человека по выходным данным LLM), что может быть сложным и длительным процессом.

Иногда для решения узкой задачи нам нужно сделать чуть больше, чем просто применить LLM. В частности, мы можем ещё больше специализировать языковую модель (при необходимости), применив или fine-tuning под предметную область, или контекстное обучение (см. ниже). Fine-tuning под предметную область просто продолжает обучение модели (обычно при помощи цели языкового моделирования, схожей с предварительным обучением/SFT) на данных, релевантных узкой задачи, а контекстное обучение добавляет больше контекста или примеров в промт языковой модели, который используется в качестве контекста для решения задачи.

Что такое выравнивание? Мы много раз использовали выше термин, который важно понять: выравнивание (alignment). Предварительно обученная языковая модель обычно не особо полезна. Если генерировать выходные данные при помощи этой модели, то результаты, вероятно, будут повторяющимися и малоприменимыми. Для создания более полезной языковой модели нам нужно выровнять эту модель под желания живого пользователя. Иными словами, вместо генерации наиболее вероятной текстовой последовательности наша модель учится генерировать текстовую последовательность, требуемую пользователю.

«Для сбора коллекции предпочтительных аннотаций мы делаем упор на полезность и безопасность. Полезность (helpfulness) — это мера того, насколько хорошо ответы Llama 2-Chat выполняют запросы пользователей и предоставляют требуемую информацию; безопасность (safety) — это проверка ответов Llama 2-Chat на безвредность».

Такое выравнивание, выполняемое при помощи описанного выше трёхэтапного фреймворка SFT и RLHF, может использоваться для подталкивания LLM к разнообразным поведениям и свойствам. Обычно они обучают модель выбирать множество из одного или нескольких критериев, на которые делается упор в процессе выравнивания. Вот самые распространённые критерии выравнивания: повышение способности следования инструкциям, препятствование вредоносным выходным данным, повышение полезности LLM и многие другие. Например, LLaMA-2 выровнена с целью обеспечения 1) полезности и 2) безвредности/безопасности (см. выше).

Supervised fine-tuning (SFT) — это первый этап обучения в рамках процесса выравнивания LLM; он достаточно прост. Во-первых, нам нужно выполнить куририрование датасета высококачественных выходных данных LLM (по сути, это просто примеры правильного поведения LLM) (см. ниже). Затем мы напрямую выполняем fine-tuning модели по этим примерам. Supervised («с учителем») в термине SFT означает, что мы собираем датасет примеров того, чему должна подражать модель. Затем модель учится воспроизводить стиль* этих примеров в процессе fine-tuning.

* Недавние исследования LIMA [6] показали, что основной части своих знаний модель обучается во время предварительного обучения, а процесс выравнивания учит модель корректировать стиль, поведение или способ извлечения знаний, которые у неё уже есть.

Связь с прогнозированием следующего токена. Любопытно, что SFT не особо отличается от предварительного обучения языковой модели — и в обучении, и в SFT используется в качестве цели обучения прогнозирование следующего токена! Основное различие связано с тем, как применяются данные. Во время предварительного обучения модели мы используем огромные корпус сырых текстовых данных. В SFT в качестве «учителя» применяется датасет высококачественных выходных данных LLM. На каждой итерации обучения мы сэмплируем множество примеров, затем выполняем fine-tuning модели на этих данных, используя в качестве цели обучения прогнозирование следующего токена. Обычно прогнозирование следующего токена применяется только к части каждого примера, соответствующей выходным данным LLM (например, к ответу на рисунке выше).

Откуда взялась эта методика?

Трёхэтапный процесс выравнивания (включая и SFT, и RLHF) изначально был предложен в InstructGPT [2] (хотя ранее он исследовался для моделей резюмирования в [21]) — предшественнике и родственной ChatGPT модели. Благодаря успеху и InstructGPT, и ChatGPT этот трёхэтапный процесс стал стандартизированным и достаточно популярным, из-за чего его начали применять в различных следующих языковых моделях (например, в Sparrow [4] и LLaMA-2 [6]). Сегодня выравнивание при помощи SFT и RLHF активно применяется и в исследованиях, и в практических областях.

Каким был fine-tuning до SFT. Несмотря на недавно возникшую популярность SFT, fine-tuning языковых моделей уже давно был популярной методикой. Например, для GPT [7] fine-tuning выполняется напрямую для каждой оцениваемой задачи (см. ниже), а для состоящих только из энкодера языковых моделей (например, BERT [8]) (из-за того, что они не используются широко для задач генерации), для решения узких задач почти исключительно применяется методика fine-tuning. Более того, во многих LLM начали применять методики fine-tuning, немного отличающиеся от SFT; например, для LaMDA [9] fine-tuning выполняется на различных вспомогательных задачах, а для Codex [10] выполняется fine-tuning под конкретные предметные области (то есть, по сути, дополнительное предварительное обучение на разных данных) на основании корпуса кода.

Стоит отметить, что SFT немного отличается от обобщённого fine-tuning. Обычно fine-tuning модели глубокого обучения выполняется для того, чтобы научить модель решению конкретной задачи, но это делает модель более специализированной и менее обобщённой — модель становится "нишевым специалистом". Модель с большей вероятностью будет точнее решать задачу, на которую выполнялся fine-tuning, по сравнению с обобщённой моделью (см., например, GOAT [11]), но может потерять способность решать другие задачи. SFT же — это фундаментальный компонент выравнивания языковых моделей, в том числе и обобщённых базовых моделей. Так как мы выполняем fine-tuning модели, чтобы она подражала правильному стилю или поведению, а не чтобы она решала конкретную задачу, она не теряет своей способности решать обобщённые задачи.

Плюсы и минусы SFT

SFT прост в использовании — процесс обучения и его цели очень схожи с предварительным обучением. Кроме того, эта методика крайне эффективна при выполнении выравнивания, а по сравнению с предварительным обучением вычислительно малозатратна (в сто и более раз дешевле). Как показано на изображении выше, применение одного SFT (то есть без какого-либо RLHF) приносит чётко заметную выгоду, выражающуюся в усилении способностей модели следовать инструкциям, корректности, согласованности и общей точности*. Иными словами, SFT — это высокоэффективная методика повышения качества языковой модели. Однако стоит помнить о том, что она неидеальна! У неё есть некоторые недостатки, которые следует учитывать.

* Очевидно, это сильно зависит от качества используемых данных, а также от критериев выравнивания, сформулированных для сбора этих данных.

Создание датасета. Результаты выполнения SFT сильно зависят от курируемого нами датасета. Если этот датасет содержит разнообразное множество примеров, точно передающих все соответствующие критерии выравнивания и характеризующих ожидаемые выходные данные языковой модели, то SFT оказывается отличной методикой. Однако как мы можем гарантировать что используемый для SFT датасет всесторонне отображает все поведения, к которым мы хотим подтолкнуть модель в процессе выравнивания? Это можно гарантировать только при помощи тщательного изучения данных вручную, что 1) плохо масштабируется и 2) обычно сильно затратно. В качестве альтернативы в недавних исследованиях были изучены автоматизированные фреймворки генерации датасетов для SFT (например, self instruct [12]; см. выше), но гарантия качества данных отсутствует. Поэтому SFT, несмотря на свою простоту, требует курирования высококачественного датасета, что может оказаться сложной задачей.

Добавление RLHF повышает качество. Последние исследования показывают, что даже после курирования высококачественного датасета для SFT ещё большую выгоду можно получить благодаря выполнению RLHF. Иными словами, недостаточно выполнить fine-tuning языковой модели при помощи SFT. Это открытие наиболее наглядно проявляется в недавней публикации о LLaMA-2 [5], в которой выравнивание выполняется при помощи и SFT, и RLHF; см. выше. Для SFT модель LLaMA-2 использует большой (27540 примеров) датасет сессий диалогов, вручную курированных для обеспечения качества и разнообразия. Несмотря на применение для SFT большого и высококачественного источника данных, дальнейшее выполнение RLHF приводило к существенному повышению полезности и безопасности (то есть критериев выравнивания LLaMA-2); см. ниже.

Кроме того, авторы отметили, что после выполнения SFT языковая модель оказалась способна генерировать сессии диалогов, сравнимые по уровню качества с написанными людьми. Поэтому создание большего объёма данных для SFT давало меньше преимуществ, потому что мы можем просто автоматически генерировать больше данных для SFT при помощи самой модели.

«Мы выяснили. что выходные данные, сэмплированные из получившейся модели SFT, часто оказывались сравнимыми с рукописными данными, составленными живыми аннотаторами; это говорит о том, что можно изменить приоритеты и потратить больше ресурсов на аннотацию для RLHF на основе предпочтений».

Проще говоря, сегодня в исследовательском сообществе, похоже, сложился такой консенсус: оптимальная методика выравнивания заключается в 1) выполнении SFT с датасетом примеров среднего размера с очень высоким качеством и 2) вложении оставшихся ресурсов в курирование данных человеческих предпочтений для fine-tuning при помощи RLHF.

Теперь, когда мы поняли концепцию SFT, давайте исследуем, как её можно применять и в практических областях, и в исследованиях. Сначала мы рассмотрим пример того, как можно выполнять SFT на Python. Затем мы вкратце исследуем различные актуальные статьи по теме SFT.

Реализация SFT

Как говорилось ранее, реализация SFT довольно сильно похожа на предварительное обучение языковой модели. Внутренне любая реализация SFT использует прогнозирование следующего токена (также известное как standard language modeling). Одним из лучших практических инструментов для обучения LLM при помощи SFT является библиотека Python transformer reinforcement learning (TRL), включающая в себя реализацию SFT, которую можно использовать для fine-tuning готовой языковой модели всего в нескольких строках кода.

Выполнение SFT. TRL, созданная поверх библиотеки HuggingFace transformers, может при помощи SFT обучать языковую модель (в данном случае модель OPT компании Meta) кодом, показанным выше. Этот короткий пример показывает, насколько простым может быть обучение модели при помощи SFT! Благодаря этой простоте fine-tuning моделей при помощи SFT стал невероятно популярным в исследовательском сообществе опенсорсных LLM. Зайдя на Open LLM Leaderboard, можно увидеть множество любопытных примеров. Сейчас fine-tuning предварительно обученной LLM при помощи SFT является одним из самых простых и эффективных способов освоить обучение опенсорсных LLM.

Кроме этого базового определения SFT существует несколько полезных (и более совершенных) методик, которые можно использовать, например, применение обучения с учителем только к ответам модели (а не к полному диалогу или примеру), дополнение всех примеров ответов общим шаблоном промтов или даже применение методики parameter efficient fine-tuning (PEFT) (например, LoRA [13]). Любопытно, что определяемый TRL класс SFTTrainer достаточно адаптируем и расширяем, чтобы работать с каждым из этих случаев. Подробности реализации можно посмотреть по ссылке ниже:

Using SFTTrainer

Сценарии применения SFT в исследованиях ИИ

Благодаря тому, что SFT стал стандартным компонентом процесса выравнивания, его активно исследуют в литературе по ИИ. Мы выполним краткий обзор нескольких публикаций, в которых приведены ценные сведения об SFT. Этот список статей не исчерпывающий, существует огромное количество ресурсов по теме SFT (а также ИИ в целом), однако я постарался выделить самые важные открытия исследовательского сообщества.

InstructGPT. Трёхэтапный процесс выравнивания (включающий SFT и RLHF), применяемый для большинства языковых моделей, впервые был использован для InstructGPT [2], однако исследовался и ранее в моделях для резюмирования в [21]. Эта публикация заложила фундамент для множества последних открытий в сфере LLM, она содержит множество ценных сведений о процессе выравнивания. В отличие от информации о новых моделях OpenAI, подробности процесса обучения и архитектуры InstructGPT полностью раскрыты в этой публикации. Таким образом, эта модель позволяет глубоко изучить создание мощных языковых моделей, делая чтение постов о ChatGPT и GPT-4* гораздо более информативным.

* По GPT-4 также выпущен технический отчёт, где больше подробностей, чем в посте, но в нём всё равно не раскрываются полностью подробности архитектуры модели и процесса обучения. Впрочем, устройство GPT-4 подробно раскрыто в недавней публикации SemiAnalysis.

Имитационные модели. В условиях современного взрывного развития опенсорсных языковых моделей, последовавшего за выпуском LLaMA, SFT активно использовался в контексте имитационного обучения. Можно сделать следующее:

Начать с опенсорсной базовой модели.
Собрать датасет сессий диалогов с проприетарной языковой моделью (например, ChatGPT или GPT-4).
Обучить модель (при помощи SFT) по получившемуся датасету.

Эти модели (например, Alpaca, Koala и Vicuna) был дёшевы в обучении и имели достаточно высокую точностью, что подчёркивает, насколько впечатляющих результатов можно добиться при помощи SFT на относительно малых вычислительных мощностях. Хотя выяснилось, что первые имитационные модели имели низкую точность по сравнению с проприетарными моделями, новые их вариации, обучаемые на имитационных датасетах большего размера (например, Orca [15]), имеют хорошую точность. Применение SFT с имитационным обучением — это дешёвый и простой способ создания LLM приличного уровня.

LIMA. Исследования в сфере имитационного обучения позволили выяснить, что применение проприетарных языковых моделей при генерации больших датасетов для SFT оказалось полезным подходом. В то же время проводились параллельные исследования с целью определить, можно ли достичь выравнивания при помощи тщательно курируемых датасетов меньшего размера. В статье о LIMA [16], авторы курировали для SFT датасет всего из 1 тысячи примеров, а получившаяся модель по точности оказалась сравнимой с лучшими опенсорсными и проприетарными LLM (см. выше). В этом случае ключом к успеху становится ручная проверка данных, гарантирующая и качество, и разнообразие; выяснилось, что они важнее, чем просто размер датасета, применяемого для SFT. Эти результаты подтверждаются исследованиями LLaMA-2, в которых авторы выяснили, что наилучший исход SFT обеспечивает датасет среднего размера с высокими стандартами качества и разнообразия.

Опенсорсное выравнивание. До недавнего появления LLaMA-2 (и даже после него) опенсорсные LLM выравнивались преимущественно при помощи SFT с минимальным RLHF (или с полным его отсутствием). Например, множество вариантов моделей MPT, а также Instruct-версии Falcon и LLaMA создавались при помощи SFT с различными датасетами (многие из которых доступны публично* на HuggingFace!). Кроме того, если взглянуть на Open LLM Leaderboard, то можно заметить, что разнообразные лучшие модели являются версиями популярных базовых моделей (например, LLaMA-2 или Falcon), подвергнутыми fine-tuning при помощи SFT на основе множества разных данных. Среди стоящих внимания примеров можно упомянуть Platypus, WizardLM, Airoboros, Guanaco и другие.

* Интересные примеры публичных датасетов SFT: Dolly15K, Baize, Ultrachat и другие. Также доступны имитационные датасеты (например, для Alpaca и Vicuna). Эти датасеты можно найти в карточке модели популярных опенсорсных LLM.

В этом обзоре мы познакомились с SFT, с его использованием на практике и с тем, что сейчас известно о нём благодаря исследованиям. SFT — это мощный инструмент разработчиков ИИ, потому что его можно применять для выравнивания языковой модели под определённые задачи, при этом эффективно используя данные. Хотя при помощи RLHF можно обеспечить дальнейшее повышение качества, SFT прост в применении (очень похож на предварительное обучение), вычислительно малозатратен и высокоэффективен. Благодаря этим свойствам SFT активно используется в сообществе исследователей опенсорсных LLM, где почти каждый день обучается (при помощи SFT) и выпускается множество новых моделей. Имея доступ к высококачественной базовой модели (например, к LLaMA-2), мы можем эффективно и легко выполнять fine-tuning таких моделей при помощи SFT, чтобы они могли работать в различных областях применения.

Библиография

[1] Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).

[2] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[3] Touvron, Hugo, et al. "Llama 2: Open foundation and fine-tuned chat models." arXiv preprint arXiv:2307.09288 (2023).

[4] Glaese, Amelia, et al. "Improving alignment of dialogue agents via targeted human judgements." arXiv preprint arXiv:2209.14375 (2022).

[5] Touvron, Hugo, et al. "Llama 2: Open foundation and fine-tuned chat models." arXiv preprint arXiv:2307.09288 (2023).

[6] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).

[7] Radford, Alec, et al. "Improving language understanding by generative pre-training." (2018).

[8] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[9] Thoppilan, Romal, et al. "Lamda: Language models for dialog applications." arXiv preprint arXiv:2201.08239 (2022).

[10] Chen, Mark, et al. "Evaluating large language models trained on code." arXiv preprint arXiv:2107.03374 (2021).

[11] Liu, Tiedong, and Bryan Kian Hsiang Low. "Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks." arXiv preprint arXiv:2305.14201 (2023).

[12] Wang, Yizhong, et al. "Self-instruct: Aligning language model with self generated instructions." arXiv preprint arXiv:2212.10560 (2022).

[13] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." arXiv preprint arXiv:2106.09685 (2021).

[14] Touvron, Hugo, et al. "Llama: Open and efficient foundation language models." arXiv preprint arXiv:2302.13971 (2023).

[15] Mukherjee, Subhabrata, et al. "Orca: Progressive Learning from Complex Explanation Traces of GPT-4." arXiv preprint arXiv:2306.02707 (2023).

[16] Zhou, Chunting, et al. "Lima: Less is more for alignment." arXiv preprint arXiv:2305.11206 (2023).

[17] Taori, Rohan et al. “Stanford Alpaca: An Instruction-following LLaMA model.” (2023).

[18] Chiang, Wei-Lin et al. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality.” (2023).

[19] Geng, Xinyang et al. “Koala: A Dialogue Model for Academic Research.” (2023).

[20] Yuvanesh Anand, Zach Nussbaum, Brandon Duderstadt, Benjamin Schmidt, and Andriy Mulyar. GPT4All: Training an assistant-style chatbot with large scale data distillation from GPT-3.5-Turbo, 2023.

[21] Stiennon, Nisan, et al. "Learning to summarize with human feedback." Advances in Neural Information Processing Systems 33 (2020): 3008-3021.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Cameron R. Wolfe

#Машинноеобучение #datalabeling #dataannotation #dataset #разметкаданных #SFT #Fine-tuning #LLM

Как дообучать LLM с помощью Supervised Fine-Tuning

Полезная вводная информация

Что такое SFT?

Применение SFT на практике

Заключение