Тут китайский Qwen выкатил третью серию своих моделей — размеров у них много, модели все разные:

Бенчи можно глянуть у Игоря, а тут лежат файлы GGUF всех видов

Меня зацепила маленькая моделька на 600 миллионов параметров (0.6B), она отдает токены примерно со скоростю водопада – очень быстро; с английским работает замечательно – можно теперь очень быстро обрабатывать массивы текстов прямо на устройстве 🌝

Подписывайтесь на Telegram-канал Denis Sexy IT 🤖.

1
Начать дискуссию