Он работает на основе методов сжатия, которые позволяют уменьшить модель в несколько раз.
Llama 3.1-8B в браузере:
Llama 3.1-8B в браузере: