Помимо включения общих методов оптимизации инференса, таких как непрерывный батчинг, flash attention и префикс-кэшинг, исследователи не настраивали параметры инференса (утилизация памяти GPU, максимальное количество последовательностей, размер блока постраничного KV-кэша и т.д.) для каждого отдельного бэкенда. Это связано с тем, что такой подход не масштабируется по мере увеличения количества обслуживаемых нами больших языковых моделей (LLM).