Сравниваем эффективность online и offline методов дообучения моделей с учетом человеческого фидбэка

Сравниваем эффективность online и offline методов дообучения моделей с учетом человеческого фидбэка

Дообучение моделей с учётом человеческого фидбэка можно осуществлять двумя основными способами: offline и online.
Offline-алгоритмы имеют доступ ко всем входным данным до начала обучения, тогда как online-алгоритмы получают новые данные по мере завершения предыдущих вычислений.
Пример offline-метода - DPO, а среди online-методов распространены стандартные RLHF-алгоритмы.

Вызов для Онлайн-Методов

Недавние успехи в развитии offline-методов ставят под сомнение текущее доминирование RLHF. Исследователи из DeepMind решили сравнить эффективность двух подходов в серии экспериментов.

Исходные Позиции и Гипотезы

В качестве отправной точки был принят текущий научный консенсус, что онлайн-методы превосходят оффлайн.
Авторы предложили несколько гипотез, например, что оффлайн-датасеты могут быть недостаточно разнообразны, и проверили их экспериментально.

Экспериментальная Проверка

Эксперименты проводились на моделях T5X с использованием фреймворков T5X data и compute. Тесты включали типичные задачи для RLHF: суммаризация от OpenAI, helpfulness от Anthropic, сравнение в Chat arena и harmlessness от Anthropic.

Исследования показали, что отставание offline-методов часто связано с качеством датасетов. Offline-алгоритмы, при улучшении качества данных, могут показывать результаты на одном уровне с online-подходами. Интересно, что offline-методы лучше справляются с задачами классификации.

Сравниваем эффективность online и offline методов дообучения моделей с учетом человеческого фидбэка

Что в итоге?

Таким образом, различия в датасетах являются ключевым фактором, влияющим на эффективность offline-методов.
При улучшении данных offline-алгоритмы могут стать конкурентоспособными, а в некоторых задачах даже превзойти online-подходы.

Ещё больше важных и интересных новостей про AI на других ресурсах:

Начать дискуссию