Nvidia показала GPU для моделей со сверхдлинным контекстом

Компания представила Rubin CPX — графический процессор, оптимизированный под задачи с контекстом более 1 миллиона токенов.

Чип рассчитан на «disaggregated inference» — подход, где разные GPU обрабатывают разные части задачи. Это должно повысить эффективность работы моделей при генерации видео, программировании и других сценариях с длинным контекстом.

Rubin CPX выйдет в конце 2026 года.

https://developer.nvidia.com/blog/nvidia-rubin-cpx-accelerates-inference-performance-and-efficiency-for-1m-token-context-workloads/

Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.