По словам компании, вплоть до 25% — в зависимости от архитектуры и параметров нейросети.Исходный код набора инструментов и методов разработки YaFSDP разместили на Github. «Яндекс» разработал решение, когда обучал свою модель YandexGPT 3.YaFSDP оптимизирует использование ресурсов графических процессоров (GPU) на этапах предварительного обучения и обучения с учителем, а также при выравнивании модели.Это происходит за счёт того, что она «задействует ровно столько графической памяти, сколько нужно», не затрачивая лишние вычислительные мощности и не затягивая тем самым процесс. Если бы YaFSDP использовали при работе с моделью LLaMA 2, предварительное обучение на 1024 GPU сократилось бы с 66 дней до 53.Библиотека должна помочь бизнесу, частным разработчикам и исследователям сократить расходы на оборудование для обучения как языковых моделей, так и других нейросетей — например, которые генерируют изображения.Источник: «Яндекс»«Яндекс» также выкладывал в открытый доступ исходный код «Метрики», AppMetrica, системы управления базами данных YDB, платформы для работы с большими данными YTsaurus, инструмента для быстрой сборки Android-приложений Yatagan и инструмента для ускорения разработки мобильных приложений DivKit.#новости #яндекс
Анально-цензурированный ограниченный GPT?
Нет, спасибо 🙂↔️
Лишь бы неуместный комментарий написать в пост про инструмент для оптимизации обучения?
Вы вообще о чем, в статье речь про инструмент, который ускоряет обучение больших языковых моделей, а не про какой-нибудь гпт
Не особо понял, зачем бизнесу с нуля учить ЛЛМки, да еще и используя Яндекс.
очевдно, чтобы помучавшись и ничего не добивались купить подписку у одоной известной компании.
Комментарий недоступен
Проще говоря, "как синхронизировать градиенты при обучении огроменнейших нейросетей в кластерах".
Это кому-то кроме Яндекса и Сбера (̶п̶о̶ ̶к̶а̶р̶м̶а̶н̶у̶)̶ нужно?