LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.

Обучение LLM традиционно проходит в два этапа:

Unsupervised Pretraining,
Instruction Tuning.

Каждый из этапов требует большого датасета с обучающими даными. Однако авторы статьи LIMA: Less Is More for Alignment наглядно доказали, что для fine-tuning этапа требуется всего 1000 высококачественных, тщательно подобранных пар (промпт + ответ). И этого набора хватает для неожиданно достаточно для достижения производительности, сравнимой с GPT-4, Bard и DaVinci003

LLM приобретает знания в процессе предобучения (pretraining), а стиль и формат ответов модель изучает в процессе дообучения (fine-tuning).

Чтобы проверить эту идею, исследователи собрали всего 1000 тщательно отобранных примеров из разных источников:

Stack Exchange. Сайт, содержащий 179 тематик (одной из самых популярных тематик является программирование — Stack Overflow). Было выбрано 75 основных тематик (программирование, физика, математика и т.д.) и 99 вторичных (5 непопулярных тематик не использовались). Из каждого блока было взято 200 вопросов с наибольшим количеством оценок. На каждый вопрос выбирался лучший ответ и редактировался под более удобочитаемый стиль.
wikiHow. Сайт с более чем 240k статей на самые разные тематики. Было выбрано 200 наиболее различных статей и на их основе формировались вопросы и ответы.
Reddit. Так как на данном сайте наибольшее количество лайков обычно набирают саркастичные ответы, то авторы ограничились поиском вопросов в двух ветках: r/AskReddit и r/WritingPrompts. Также было взято 200 примеров.
Natural Instructions. Это стандартный набор для обучения моделей работать с инструкциями.
200 примеров написаны вручную авторами.

Основным критерием отбора является качество и разнообразие вопросов. Это подразумевает разнообразие тематик и уровней сложности вопросов.
На основе этих данных исследователи дообучили LLaMa 65B.

В 74% вопросов модель давала лучшие или сравнимые с Alpaca 65B ответы. В основе Alpaca также лежит LLaMa, но дообучение происходит на 52k примеров из нескольких датасетов (подробнее тут). Наглядное доказательство того, что качество превалирует над количеством в процессе дообучения LLM. Остальные результаты будут ниже.

Чтобы эффективно дообучить LLM, достаточно ~1000 примеров (~750 000 токенов), если они:

Высокого качества,
Разнообразны по тематике и сложности.

Присоединяйтесь к нам в Telegram.

LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.

Гипотеза:

Сбор данных:

Результаты:

Вывод: