Насколько квантизация влияет на конечный результат генерации? Вопрос непраздный. Если верить публичным бенчмаркам, то квантизация 4-бит вроде не сильно влияет, особенно для больших моделей от 13B и выше. Но кто разберет эти десятые доли разницы. Лучше всего смотреть на конкретных задачах, для которых выбирается LLM. Я выбрал для теста - ненаглядную…
Божескую работу делаешь.
Аплодирую стоя