«Яндекс» выложил в открытый доступ библиотеку YaFSDP собственной разработки — она поможет ускорить обучение больших языковых моделей
По словам компании, вплоть до 25% — в зависимости от архитектуры и параметров нейросети.
- Исходный код набора инструментов и методов разработки YaFSDP разместили на Github. «Яндекс» разработал решение, когда обучал свою модель YandexGPT 3.
- YaFSDP оптимизирует использование ресурсов графических процессоров (GPU) на этапах предварительного обучения и обучения с учителем, а также при выравнивании модели.
- Это происходит за счёт того, что она «задействует ровно столько графической памяти, сколько нужно», не затрачивая лишние вычислительные мощности и не затягивая тем самым процесс. Если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU сократилось бы с 66 дней до 53.
- Библиотека должна помочь бизнесу, частным разработчикам и исследователям сократить расходы на оборудование для обучения как языковых моделей, так и других нейросетей — например, которые генерируют изображения.
Источник: «Яндекс»
32 комментария