BOLT: Bootstrapping LongCoT 🚀

BOLT: Bootstrapping LongCoT 🚀

Многие LLM модели используют ShortCoT (короткие рассуждения) и плохо справляются со сложными задачами. Подход BOLT помогает научить модели длинным рассуждениям (LongCoT) и значительно улучшает качество ответов.

Рассмотрим основные шаги подхода.

Общая схема алгоритма.
Общая схема алгоритма.

1. Формирование датасета.

  • Авторы вручную сформировали 10 примеров LongCoT: каждый пример — это тройка: запрос, рассуждения, ответ.
  • Затем были собраны высококачественные Instruct-датасеты: SlimOrca
    Self-Instruct
  • Из данных датасетов , были выбраны только запросы, из которых были отобраны наиболее качественные. Как и в работе LMSys Team было выбрано 7 ключевых критериев качества:

    1) Конкретность: запрашивает ли подсказка конкретный результат?
    2) Знание предметной области: затрагивает ли запрос одну или несколько конкретных областей?
    3) Сложность: содержит ли запрос несколько уровней рассуждений, компонентов или переменных?
    4) Решение проблем: предполагает ли запрос непосредственное участие ИИ в демонстрации навыков активного решения проблем?
    5) Творческий подход: предполагает ли задание творческий подход к решению проблемы?
    6) Техническая точность: требует ли запрос технической точности в ответе?
    7) Применение в реальной жизни: имеет ли запрос отношение к реальным приложениям?

  • Для каждого из критерия LLM выставляла метку 1 или 0. В итоговый набор запросов отбирались только те, которые набрали минимум 5 баллов.

2. Генерация ответов и рассуждений.

Для каждого запроса формируются 8 пар (ответ, рассуждения).

3. Фильтрация.

  • Отсеиваются тройки с некорректным форматом (неверные теги и прочее),
  • Оцениваются только финальные ответы с помощью outcome-reward-модели ORM,
  • Отбираются топ-30% → формируется качественный SFT-датасет (~220k примеров).

4. Доработка модели: LongCoT Online Training.

  • Берём запрос,
  • Получаем n пар (ответ, рассуждения),
  • Оцениваем каждую пару с помощью ORM,
  • Дообучаем модель с помощью DPO: хорошие ответы становятся более вероятными, плохие — менее.

✅ Итог:

  • Модель учится использовать длинные рассуждения,
  • Существенное улучшение качества LLM.

Довольно интересная статья, постараюсь применить данный алгоритм на практике. Темка "дообучить LLM" или даже "обучить LLM с нуля" давно витает в воздухе, так что работаем дальше 😉Всем удачи!

Если остались вопросы? Можете заглянуть ко мне в Telegram.

1
Начать дискуссию