«Яндекс» выложил в открытый доступ библиотеку YaFSDP собственной разработки — она поможет ускорить обучение больших языковых моделей

По словам компании, вплоть до 25% — в зависимости от архитектуры и параметров нейросети.

Исходный код набора инструментов и методов разработки YaFSDP разместили на Github. «Яндекс» разработал решение, когда обучал свою модель YandexGPT 3.
YaFSDP оптимизирует использование ресурсов графических процессоров (GPU) на этапах предварительного обучения и обучения с учителем, а также при выравнивании модели.
Это происходит за счёт того, что она «задействует ровно столько графической памяти, сколько нужно», не затрачивая лишние вычислительные мощности и не затягивая тем самым процесс. Если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU сократилось бы с 66 дней до 53.
Библиотека должна помочь бизнесу, частным разработчикам и исследователям сократить расходы на оборудование для обучения как языковых моделей, так и других нейросетей — например, которые генерируют изображения.

«Яндекс» также выкладывал в открытый доступ исходный код «Метрики», AppMetrica, системы управления базами данных YDB, платформы для работы с большими данными YTsaurus, инструмента для быстрой сборки Android-приложений Yatagan и инструмента для ускорения разработки мобильных приложений DivKit.

#новости #яндекс

35 комментариев

Невероятный Блондин

11 июня

Анально-цензурированный ограниченный GPT?
Нет, спасибо 🙂‍↔️

Ответить

Peter Volkov

Лишь бы неуместный комментарий написать в пост про инструмент для оптимизации обучения?

Владимир К

Вы вообще о чем, в статье речь про инструмент, который ускоряет обучение больших языковых моделей, а не про какой-нибудь гпт

Невкусно и грустно

Не особо понял, зачем бизнесу с нуля учить ЛЛМки, да еще и используя Яндекс.

Bo.G

очевдно, чтобы помучавшись и ничего не добивались купить подписку у одоной известной компании.

Аккаунт удален

Комментарий недоступен

Бонифаций на каникулах

Проще говоря, "как синхронизировать градиенты при обучении огроменнейших нейросетей в кластерах".
Это кому-то кроме Яндекса и Сбера (̶п̶о̶ ̶к̶а̶р̶м̶а̶н̶у̶)̶ нужно?