«Яндекс» выложил в открытый доступ библиотеку YaFSDP собственной разработки — она поможет ускорить обучение больших языковых моделей

По словам компании, вплоть до 25% — в зависимости от архитектуры и параметров нейросети.

  • Исходный код набора инструментов и методов разработки YaFSDP разместили на Github. «Яндекс» разработал решение, когда обучал свою модель YandexGPT 3.
  • YaFSDP оптимизирует использование ресурсов графических процессоров (GPU) на этапах предварительного обучения и обучения с учителем, а также при выравнивании модели.
  • Это происходит за счёт того, что она «задействует ровно столько графической памяти, сколько нужно», не затрачивая лишние вычислительные мощности и не затягивая тем самым процесс. Если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU сократилось бы с 66 дней до 53.
  • Библиотека должна помочь бизнесу, частным разработчикам и исследователям сократить расходы на оборудование для обучения как языковых моделей, так и других нейросетей — например, которые генерируют изображения.
Источник: «Яндекс»
Источник: «Яндекс»
  • «Яндекс» также выкладывал в открытый доступ исходный код «Метрики», AppMetrica, системы управления базами данных YDB, платформы для работы с большими данными YTsaurus, инструмента для быстрой сборки Android-приложений Yatagan и инструмента для ускорения разработки мобильных приложений DivKit.
66
35 комментариев

Анально-цензурированный ограниченный GPT?
Нет, спасибо 🙂‍↔️

12
Ответить

Лишь бы неуместный комментарий написать в пост про инструмент для оптимизации обучения?

11
Ответить

Вы вообще о чем, в статье речь про инструмент, который ускоряет обучение больших языковых моделей, а не про какой-нибудь гпт

5
Ответить

Не особо понял, зачем бизнесу с нуля учить ЛЛМки, да еще и используя Яндекс.

3
Ответить

очевдно, чтобы помучавшись и ничего не добивались купить подписку у одоной известной компании.

2
Ответить

Комментарий недоступен

Ответить

Проще говоря, "как синхронизировать градиенты при обучении огроменнейших нейросетей в кластерах".
Это кому-то кроме Яндекса и Сбера (̶п̶о̶ ̶к̶а̶р̶м̶а̶н̶у̶)̶ нужно?

2
Ответить