BOLT: Bootstrapping LongCoT 🚀
Многие LLM модели используют ShortCoT (короткие рассуждения) и плохо справляются со сложными задачами. Подход BOLT помогает научить модели длинным рассуждениям (LongCoT) и значительно улучшает качество ответов.
Рассмотрим основные шаги подхода.
Общая схема алгоритма.
1. Формирование датасета.
- Авторы вручную сформировали 10 примеров LongCoT: каждый пример — это тройка: запрос, рассуждения, ответ.
- Затем были собраны высококачественные Instruct-датасеты: SlimOrca
Self-Instruct - Из данных датасетов , были выбраны только запросы, из которых были отобраны наиболее качественные. Как и в работе LMSys Team было выбрано 7 ключевых критериев качества:
1) Конкретность: запрашивает ли подсказка конкретный результат?
2) Знание предметной области: затрагивает ли запрос одну или несколько конкретных областей?
3) Сложность: содержит ли запрос несколько уровней рассуждений, компонентов или переменных?
4) Решение проблем: предполагает ли запрос непосредственное участие ИИ в демонстрации навыков активного решения проблем?
5) Творческий подход: предполагает ли задание творческий подход к решению проблемы?
6) Техническая точность: требует ли запрос технической точности в ответе?
7) Применение в реальной жизни: имеет ли запрос отношение к реальным приложениям? - Для каждого из критерия LLM выставляла метку 1 или 0. В итоговый набор запросов отбирались только те, которые набрали минимум 5 баллов.
2. Генерация ответов и рассуждений.
Для каждого запроса формируются 8 пар (ответ, рассуждения).
3. Фильтрация.
- Отсеиваются тройки с некорректным форматом (неверные теги и прочее),
- Оцениваются только финальные ответы с помощью outcome-reward-модели ORM,
- Отбираются топ-30% → формируется качественный SFT-датасет (~220k примеров).
4. Доработка модели: LongCoT Online Training.
- Берём запрос,
- Получаем n пар (ответ, рассуждения),
- Оцениваем каждую пару с помощью ORM,
- Дообучаем модель с помощью DPO: хорошие ответы становятся более вероятными, плохие — менее.
✅ Итог:
- Модель учится использовать длинные рассуждения,
- Существенное улучшение качества LLM.
Довольно интересная статья, постараюсь применить данный алгоритм на практике. Темка "дообучить LLM" или даже "обучить LLM с нуля" давно витает в воздухе, так что работаем дальше 😉Всем удачи!
Если остались вопросы? Можете заглянуть ко мне в Telegram.
Начать дискуссию