«Яндекс» выложил в открытый доступ библиотеку YaFSDP собственной разработки — она поможет ускорить обучение больших языковых моделей

По словам компании, вплоть до 25% — в зависимости от архитектуры и параметров нейросети.

Источник: «Яндекс»
66

Проще говоря, "как синхронизировать градиенты при обучении огроменнейших нейросетей в кластерах".
Это кому-то кроме Яндекса и Сбера (̶п̶о̶ ̶к̶а̶р̶м̶а̶н̶у̶)̶ нужно?

2