Self-Alignment with Instruction Backtranslation 🔁

Self-Alignment with Instruction Backtranslation 🔁

Статья тут.
Буквально вчера мы разбирали метод синтеза instruct-данных для дообучения LLM, основанный на Bootstrapping LongCoT. Сегодня разберём ещё один способ получить качественные обучающие пары: Self-Alignment with Instruction Backtranslation.

Основные этапы генерации.
Основные этапы генерации.

Метод состоит из трёх основных этапов:

1) Инициализация.

Берётся датасет, состоящий из 3200 пар инструкция-ответ. На данном небольшом датасете дообучается модель M0.

2) Self-Augmentation.
Берётся большой корпус текстов из интернета. Тексты делятся на самостоятельные сегменты (self-contained segments), затем сегменты дедублицируются и фильтруются по длине и качеству. Затем для каждого сегмента модель M0 формирует пару инструкция-ответ. Это позволило получить датасет A, содержащий 500к пар.

3) Self-Curation.
Модель M0 получает пару инструкция-ответ и оценивает её по 5-ти бальной шкале на основе качества соответствия и полезности. Далее формируется датасет A1, который состоит только из пар, которые получили оценку 5.

При дообучении на датасете A1 получаем модель M1, которая повторяет шаг выше: оценка пар в датасете A1 → Отбор пар, получивших 5 баллов (~40k) → Формируем датасет A2 → При дообучении на датасете A2 получаем модель M2.
В результате, исследователям удалось обучить модель Humpback (65B). При парных сравнениях (human evaluation) Humpback превосходила Falcon-Instruct, text-davinci-003, Guanaco, Claude, LIMA. И такие результаты удалось получить, начиная всего с ~3k высококачественных размеченных примеров. Также отмечено, что при увеличении исходного размеченного набора свыше ~6k рост качества становится незначительным.

Влияние размера размеченного датасета на качество модели.
Влияние размера размеченного датасета на качество модели.

На данном графике:

  • w/o curation — модель на всех сгенерированных моделью M0 данных. Синтез данных без этапа Self-Curation,
  • A_4 — модель, обученная на данных, которым модель M0 поставила оценку 4.
  • A_5 — модель, обученная на данных, которым модель M0 поставила оценку 5.

Ещё один вариант генерации синтетики в копилку. Работаем дальше!

Присоединяйтесь к нам в Telegram.

1
Начать дискуссию