⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

Этот современный формат обещает революцию в развертывании LLM, значительно улучшая эффективность инференеса без ущерба для качества модели:

🟢В плотных моделях (70В) ITL (среднее время генераций каждого токена в выводе) сокращается двукратно, а в МоЕ- моделях до 1.6х;

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

🟢3-х кратное улучшение пропускной способности в сценариях, где снижение потребления VRAM приводит к возможности увеличения размера пакетов обработки.

Реализация поддержки FP8 стала возможна благодаря усилиям сервисов Neuralmagic.com и Anyscale.com, которые активно поддерживают open-soure сообщество.

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

В репозитории выложены Instruct FP8 версии моделей:

🟢Llama-3 (8B,70B);

🟢Mixtral (7B, 22B);

🟢Qwen2 (1,5B, 7b, 72B);

🟢Mistral 7B

🟢Llama-2 7B

🟢Phi-3 (mini-128K, medium-128K)

🟢Gemma-2 9b-it

⚠ Представленный набор моделей предназначен для запуска в среде vLLM (версии от 0.5 и выше) и ее реализациях, поддерживающих технологии разреженности и быстрого инференса:

🟢nm-vllm: форк vLLM от сервиса Neuralmagic.com;

🟢DeepSparse: среда выполнения для CPU-only систем;

🟢SparseML: тулкит с возможностью инференса, который позволяет создавать разреженные модели и конвертировать их в .onnx формат.

vLLM - open-source среда для быстрого вывода и использования LLM, основанная на методе PagedAttention.

PagedAttention - алгоритм внимания, вдохновленный классической идеей виртуальной памяти и подкачки в операционных системах. Его использование снижает нагрузку на VRAM, связанную со сложными алгоритмами выборки. Экономия памяти может достигать до 55%.

Более подробно про vLLM и алгоритм PagedAttention можно прочитать на странице проекта

Начать дискуссию