Яндекс ускорил обучение нейросетей и экономит почти 5 млрд рублей в год

Яндекс рассказал о новой инфраструктурной оптимизации, которая заметно ускорила обучение больших моделей и снизила расходы. По оценкам компании, годовая экономия достигает 4,8 млрд рублей.

Ключевую роль сыграла собственная библиотека YCCL. Она ускорила обмен данными между GPU примерно в два раза и уменьшила объём передаваемой информации. Часть управления при этом перенесли с графических процессоров на центральные.

Дополнительно компания перешла на формат вычислений FP8. Это позволило ускорить обучение моделей примерно на 30% и ещё сильнее сократить объём коммуникаций между узлами. Параллельно увеличили размер батча до 16–32 млн токенов, что помогло снизить простой вычислительных ресурсов.

По сути, ставка сделана не только на новые чипы, но и на программную оптимизацию инфраструктуры. И результат получился заметный — сотни миллионов рублей экономии каждый месяц.

Похоже, гонка ИИ всё больше превращается в соревнование инженерных оптимизаций, а не только масштабов железа.