LIMA: Less Is More for Alignment. Или почему качество данных важнее количества при дообучении LLM.
Обучение LLM традиционно проходит в два этапа:
- Unsupervised Pretraining,
- Instruction Tuning.
Каждый из этапов требует большого датасета с обучающими даными. Однако авторы статьи LIMA: Less Is More for Alignment наглядно доказали, что для fine-tuning этапа требуется всего 1000 высококачественных, тщательно подобранных пар (промпт + ответ). И этого набора хватает для неожиданно достаточно для достижения производительности, сравнимой с GPT-4, Bard и DaVinci003
Гипотеза:
LLM приобретает знания в процессе предобучения (pretraining), а стиль и формат ответов модель изучает в процессе дообучения (fine-tuning).
Сбор данных:
Чтобы проверить эту идею, исследователи собрали всего 1000 тщательно отобранных примеров из разных источников:
- Stack Exchange. Сайт, содержащий 179 тематик (одной из самых популярных тематик является программирование — Stack Overflow). Было выбрано 75 основных тематик (программирование, физика, математика и т.д.) и 99 вторичных (5 непопулярных тематик не использовались). Из каждого блока было взято 200 вопросов с наибольшим количеством оценок. На каждый вопрос выбирался лучший ответ и редактировался под более удобочитаемый стиль.
- wikiHow. Сайт с более чем 240k статей на самые разные тематики. Было выбрано 200 наиболее различных статей и на их основе формировались вопросы и ответы.
- Reddit. Так как на данном сайте наибольшее количество лайков обычно набирают саркастичные ответы, то авторы ограничились поиском вопросов в двух ветках: r/AskReddit и r/WritingPrompts. Также было взято 200 примеров.
- Natural Instructions. Это стандартный набор для обучения моделей работать с инструкциями.
- 200 примеров написаны вручную авторами.
Основным критерием отбора является качество и разнообразие вопросов. Это подразумевает разнообразие тематик и уровней сложности вопросов.
На основе этих данных исследователи дообучили LLaMa 65B.
Результаты:
В 74% вопросов модель давала лучшие или сравнимые с Alpaca 65B ответы. В основе Alpaca также лежит LLaMa, но дообучение происходит на 52k примеров из нескольких датасетов (подробнее тут). Наглядное доказательство того, что качество превалирует над количеством в процессе дообучения LLM. Остальные результаты будут ниже.
Вывод:
Чтобы эффективно дообучить LLM, достаточно ~1000 примеров (~750 000 токенов), если они:
- Высокого качества,
- Разнообразны по тематике и сложности.
Присоединяйтесь к нам в Telegram.