Обнимашки с ламами, или киношник в гостях у LLM.

Поиск моделей, способных писать программный код, тексты или анализировать изображения, стал трендом. Есть множество статей и руководств. Но здесь хотелось представить один из подходов, который мог быть более понятен для тех, кто занимается видео и меньше знаком с подробными характеристиками нейросетей. Для локального запуска моделей на своём компьютере очевидно подходят не слишком большие модели, которые обычно проходят сжатие, называемое квантованием. Обычно это формат GUFF, который поддерживается такими инструментами как LM Studio.

Людям, знакомым с видео, может показаться просто провести параллели квантования с компрессией. Обычно мы имеем дело с контейнерами .mp4, .mkv и прочими, в которых видео упаковано кодеками h.264, h.265 и т.д. В технологии сжатия видео есть алгоритмы CBR- постоянный поток, VBR- переменный ограниченный поток и CQ- постояное качество. Наиболее оптимальным по качеству вариантом является вариант CQ, поскольку он не ориентируется исключительно на полосу вещания, то есть ограничен только заданным качеством, но не битрейтом, как происходит в иных случаях. Корректна ли будет аналогия квантования с компрессией?

Что можно считать аналогом CQ для квантов LLM? Какая модель с визуальным восприятием может быть наиболее оптимальной с учётом максимально большого контекста и производительности без потери точности? Для начала кое что уточним.

Для выбора наиболее эффективной квантованной версии LLM с поддержкой мультиязычности (включая русский) и возможностью работы с Vision Enabled в LM Studio, рассмотрим ключевые особенности и рекомендации по моделям и квантам.

Q4_K_M.gguf - классический 4-битный квант с использованием Q4_K_M схемы.
i1-GGUF (weighted/imatrix quants) - статические квантовки с разным битрейтом (от 2 до 8 бит), включая Q4_K_M, Q5_K, Q6_K и даже Q8_0, где качество и скорость варьируются.
UD-Q4_K_XL.gguf (Unsloth Dynamic) - динамическая 4-битная квантовка с улучшенной адаптацией под важные матрицы, использующая Q5_K на критичных местах, что повышает качество при меньшем размере файла.

Примерно их можно сформулировать так:

CBR (Constant Bitrate) - Аналог равномерного (фиксированного) квантования. В CBR битрейт фиксирован независимо от сложности сцены, что похоже на классическое квантование с одинаковым числом бит на все веса модели (например, Q4_K_M), где все параметры квантуются с одинаковой точностью. Такой подход прост и предсказуем, но может приводить к избыточному расходу ресурсов на «простых» частях модели и потере качества на «сложных».

Так, если вы закодируете фильм в режиме CBR, то на динамических сценах фон получит тот же битрейт, как и движущиеся части изображения. Это скорее всего приведёт к рассыпанию на квадраты динамических объектов сцены, которым не хватит битрейта.

VBR (Variable Bitrate) - Аналог адаптивного квантования с переменной точностью. В VBR битрейт меняется в зависимости от сложности сцены, что похоже на квантование с разным числом бит для разных частей модели, например, использование более точного квантования для важных слоёв и менее точного для менее значимых (например, i-кванты с importance-матрицей). Такой подход позволяет эффективно распределять ресурсы, улучшая качество там, где это нужно, и экономя память там, где можно.

В контексте видео VBR это путь уменьшить размер файла и вещательного потока, отдав большую часть битрейта важным ярким или динамичным объектам сцены, обделив менее важные участки изображения, такие как фон или более тёмные области. Такой подход обычно применяют вещатели, которые заинтересованы в снижении нагрузки на ограниченную полосу пропускания Также так часто поступают, когда нужно записать поток с камеры на носитель- кассету, карту или диск, где скорость записи и место ограничены.Иногда так же поступают энтузиасты для архивирования материала, применяя двухпроходное кодирование, что позволяет ещё больше оптимизировать размер файла. Недостатоком такого подхода является то, что заранее задаётся диапазон битрейта, что может послужить ограничением для качества.

CQ (Constant Quality) - Аналог качественно-ориентированного адаптивного квантования (Quality Adaptive Quantization) CQ в видео поддерживает постоянное выбраеное пользователем качество, позволяя битрейту меняться по сценам. В LLM это соответствует динамическому квантованию, которое подбирает точность квантования для каждого веса или блока модели, чтобы сохранить качество вывода на высоком уровне при минимальном размере модели. Пример - UD-Q4_K_XL (Unsloth Dynamic), где квантование адаптируется под важность весов, сохраняя качество при максимальном сжатии.

CQ в кодировании видео, как следует из названия, изначально ориентирован на заданное качество. Обычно оно задаётся параметром CRF и может быть оптимизирован по специальным метрикам, например, VMAF. Но также может быть установлен экспериментальным путём при сравнении тестов с оригиналом. Например, известно, что для кодеков h.264 и h.265 (hevc) CRF между 18 и 21 обеспечивает лучшее качество в сторону меньших значений при увеличении размера файла. Это чистая эмпирика. В то же время и к QC можно применить ограничения битрейта, добиваясь оптимального размера файла при заданном качестве(Capped CRF).

Из этой аналогии могут быть наглядно представлены все преимущества и недостатки подходов к квантованию моделей.

Таким образом, CQ-аналоги в квантовании — это современные динамические методы, которые не просто снижают битность, а делают это с учётом важности параметров модели, сохраняя качество на уровне полноточных моделей.

Ключевые моменты по выбору квантов.

Unsloth Dynamic 2.0 (UD) - новая динамическая квантовка, которая адаптируется под структуру конкретной модели, что улучшает точность и снижает KL Divergence (метрика близости к полноточной модели). UD-Q4_K_XL показывает лучшее соотношение качества и размера по сравнению с классическими Q4_K_M.
UD-Q4_K_XL обычно меньше по размеру, но с лучшим качеством, чем Q4_K_M, за счёт использования более продвинутых схем квантования на важных матрицах.
Для моделей Unsloth и Mistral Small 3.1 рекомендуется использовать именно UD-кванты (UD-Q4_K_XL), так как они обеспечивают лучшую точность и эффективность.
Для Gemma 3 (27B) Google QAT Q4_0* квантовка тоже показывает хорошее качество с меньшим размером файла и оптимизированным хранением эмбеддингов, что выгодно для локального запуска. *QAT это технология подготовки модели к квантованию, которая восполняет некоторые проблемы компрессии, как если бы к видео шла некая дополнительная информация или контрольные суммы (привет 7zip, WinRAR, FLAC...).
Модели с i1-GGUF квантами предоставляют широкий спектр битности и компромиссов между скоростью и качеством, где Q4_K_M и Q4_K_S рекомендуются для быстрого и качественного вывода, а Q6_K и Q8_0 - для максимального качества, но с большими требованиями к ресурсам.

Mistral-Small-3 1-24B-Instruct-2503-UD-Q4_K_XL (Unsloth) - лучший выбор среди Mistral Small 3.1 квантовок, так как UD dynamic 4-bit обеспечивает баланс между качеством, размером и производительностью. Модель поддерживает мультизычность и Vision Enabled, а UD-кванты оптимизированы для современных CPU/GPU и inference движков (llama.cpp, Ollama и др.)34.
Gemma-3-27B-it-QAT-Q4_0 (Google) - если важна максимальная точность и вы располагаете ресурсами, то Google QAT Q4_0 квантовка для Gemma 3 27B - отличная альтернатива, особенно если требуется большой контекст и высокая производительность. Однако размер и требования к VRAM выше, чем у Mistral Small 3.1.
Gemma-3-1b-it-GGUF (Unsloth) - для более лёгких задач или ограниченных ресурсов, 1B параметрическая версия с GGUF оптимизацией будет работать быстрее и экономнее.
Классический Q4_K_M вариант можно рассматривать, если UD-кванты не поддерживаются вашим окружением, но они уступают по качеству и эффективности UD-квантам4.

Для локального использования с Vision Enabled в LM Studio и поддержкой русского языка примером оптимального выбора будет, например, Mistral-Small-3 1-24B-Instruct-2503-UD-Q4_K_XL от Unsloth. Эта квантовка сочетает в себе высокую эффективность, меньший размер и улучшенную точность благодаря динамическому подходу к квантованию.

Если ресурсы позволяют и нужна максимальная точность с большим контекстом, стоит рассмотреть, например, Gemma-3-27B QAT Q4_0 от Google.

Для экономии ресурсов и более лёгких задач - Gemma-3-1B GGUF будет хорошим выбором.

Таким образом, для кейса с Vision Enabled и мультиязычностью, в первую очередь очевидно рекомендуется попробовать UD-Q4_K_XL квантовки от Unsloth на Mistral Small 3.1, а затем уже экспериментировать с Gemma 3 и другими вариантами в зависимости от доступных ресурсов и требований к качеству.

Данный материал можно считать записной книжкой энтузиаста. Он не претендует ни на полноту, ни на экспертное мнение.

Выбор примеров моделей обусловлен исключительно личными препочтениями и никак не связан с текущими бенчмарками и релизами.

Обнимашки с ламами, или киношник в гостях у LLM.

Основные варианты квантов и модели

Аналогии алгоритмов компрессии видео с типами квантования LLM

Примеры оптимальных квантов моделей для локального запуска в LM Studio.