Alibaba придумала, как сократить потребность в GPU

Компания представила Aegaeon — систему, которая умеет делить вычислительные ресурсы между AI-моделями так эффективно, что количество нужных для их обслуживания ускорителей Nvidia сокращается на 82%.

Проблема многих облачных сервисов, вроде Alibaba Cloud, в том, что они обрабатывают одновременно тысячи моделей. Но реальную нагрузку потребляют лишь несколько популярных, типа Qwen или DeepSeek. Остальные модели используются эпизодически, но всё равно сжигают кучу денег на электричество и железо.

С Aegaeon ускорители динамически переключаются между моделями прямо во время генерации. Один GPU теперь может обслуживать до семи моделей (против двух-трёх в типичных системах), а задержки при переключении снижаются на 97%.

Система уже работает на маркетплейсе моделей Bailian от Alibaba Cloud.

Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.

1
Начать дискуссию