🧬 Статья от Microsoft про то, как более эффективно дообучать LLM-ки, то есть как за меньшее количество шагов обучения (и потреблённых данных) получать качество лучше.

В рамках данной работы делается фокус на способности модели решать математические задачи.

Слева - модель на 1B параметров, справа — на 7B. Серая пунктирная линия сверху показывает уровень моделей семейства DeepSeekMath — китайских LLM'ок, специально обученных на 150B/500B токенов, релевантных решению математических задач (они по-умному фильтровали данные). До недавнего времени эти модели были лучшими в своём классе.

По оси X — количество тренировочных токенов, максимум 15B — то есть в 10/33 раза меньше, чем у азиатов. По оси Y — качество модели. Видно, что новый подход позволяет добиться тех же результатов за куда меньший срок (для мелкой модели — даже улучшить результат). В обоих случаях речь идёт про дообучение, а не тренировку с нуля — то есть модель сама по себе уже что-то знает (модель на 7B это Mistral, крепкая штучка).

Модели выложены, код (без данных для обучения) и ссылки тут https://github.com/microsoft/rho

Больше новостей в Телеграм канале: @neuro_trends8

НЕЙРОСЕТИ | НЕЙРОТРЕНДЫ | CHATGPT | MIDJORNEY | STABLE DIFFUSION

Подпишись в Телеграм и будь в курсе:

Начать дискуссию