LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.

LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.

Обучение LLM традиционно проходит в два этапа:

  • Unsupervised Pretraining,
  • Instruction Tuning.

Каждый из этапов требует большого датасета с обучающими даными. Однако авторы статьи LIMA: Less Is More for Alignment наглядно доказали, что для fine-tuning этапа требуется всего 1000 высококачественных, тщательно подобранных пар (промпт + ответ). И этого набора хватает для неожиданно достаточно для достижения производительности, сравнимой с GPT-4, Bard и DaVinci003

Гипотеза:

LLM приобретает знания в процессе предобучения (pretraining), а стиль и формат ответов модель изучает в процессе дообучения (fine-tuning).

Сбор данных:

Чтобы проверить эту идею, исследователи собрали всего 1000 тщательно отобранных примеров из разных источников:

  • Stack Exchange. Сайт, содержащий 179 тематик (одной из самых популярных тематик является программирование — Stack Overflow). Было выбрано 75 основных тематик (программирование, физика, математика и т.д.) и 99 вторичных (5 непопулярных тематик не использовались). Из каждого блока было взято 200 вопросов с наибольшим количеством оценок. На каждый вопрос выбирался лучший ответ и редактировался под более удобочитаемый стиль.
  • wikiHow. Сайт с более чем 240k статей на самые разные тематики. Было выбрано 200 наиболее различных статей и на их основе формировались вопросы и ответы.
  • Reddit. Так как на данном сайте наибольшее количество лайков обычно набирают саркастичные ответы, то авторы ограничились поиском вопросов в двух ветках: r/AskReddit и r/WritingPrompts. Также было взято 200 примеров.
  • Natural Instructions. Это стандартный набор для обучения моделей работать с инструкциями.
  • 200 примеров написаны вручную авторами.

Основным критерием отбора является качество и разнообразие вопросов. Это подразумевает разнообразие тематик и уровней сложности вопросов.
На основе этих данных исследователи дообучили LLaMa 65B.

Результаты:

В 74% вопросов модель давала лучшие или сравнимые с Alpaca 65B ответы. В основе Alpaca также лежит LLaMa, но дообучение происходит на 52k примеров из нескольких датасетов (подробнее тут). Наглядное доказательство того, что качество превалирует над количеством в процессе дообучения LLM. Остальные результаты будут ниже.

Результаты
Результаты

Вывод:

Чтобы эффективно дообучить LLM, достаточно ~1000 примеров (~750 000 токенов), если они:

  • Высокого качества,
  • Разнообразны по тематике и сложности.

Присоединяйтесь к нам в Telegram.

Начать дискуссию