⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.

⚡️ FP8 LLMs: набор квантированный моделей с увеличенной эффективностью и производительностью под vLLM

Ручной налог в логистике: как локальный ИИ-стек на одной GPU меняет экономику операций

Ручной налог в логистике: как локальный ИИ-стек на одной GPU меняет экономику операций

Есть расходы, которые не попадают в P&L отдельной строкой, но методично съедают маржу каждый месяц.