Сравнение суммаризации в Mixtral-8x7B-Instruct при FP16, 8-bit, 4-bit + бонус примеры из Cloude 3

Насколько квантизация влияет на конечный результат генерации? Вопрос непраздный. Если верить публичным бенчмаркам, то квантизация 4-бит вроде не сильно влияет, особенно для больших моделей от 13B и выше. Но кто разберет эти десятые доли разницы. Лучше всего смотреть на конкретных задачах, для которых выбирается LLM. Я выбрал для теста - ненаглядную…

Красным отмечен ошибочный пункт. 
22

Божескую работу делаешь.
Аплодирую стоя

Ответить