FP8- это формат квантования, предоставляющий для моделей баланс между точностью и эффективностью. Он обеспечивает нерегулярное представление диапазона и масштабирование для каждого тензора на GPU, что позволяет достичь прироста производительности и сокращения потребления памяти.