Alibaba придумала, как сократить потребность в GPU
Компания представила Aegaeon — систему, которая умеет делить вычислительные ресурсы между AI-моделями так эффективно, что количество нужных для их обслуживания ускорителей Nvidia сокращается на 82%.
Проблема многих облачных сервисов, вроде Alibaba Cloud, в том, что они обрабатывают одновременно тысячи моделей. Но реальную нагрузку потребляют лишь несколько популярных, типа Qwen или DeepSeek. Остальные модели используются эпизодически, но всё равно сжигают кучу денег на электричество и железо.
С Aegaeon ускорители динамически переключаются между моделями прямо во время генерации. Один GPU теперь может обслуживать до семи моделей (против двух-трёх в типичных системах), а задержки при переключении снижаются на 97%.
Система уже работает на маркетплейсе моделей Bailian от Alibaba Cloud.
Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.