Многослойный кэш-память KV для эффективного инференса больших языковых моделей

Обеспечивает в 26 раз более высокую пропускную способность (throughput) по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.

pip install xformers --index-url https://download.pytorch.org/whl/cu121 pip install -r requirements.txt

Если интересуетесь темой машинного обучения, здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.