Многослойный кэш-память KV для эффективного инференса больших языковых моделей
Обеспечивает в 26 раз более высокую пропускную способность (throughput) по сравнению со стандартными трансформерами и помогает увеличить производительность больших языковых моделей.
pip install xformers --index-url https://download.pytorch.org/whl/cu121 pip install -r requirements.txt
Если интересуетесь темой машинного обучения, здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.
Начать дискуссию