Надоело использовать зоопарк из HF кода для тестирования моделек, как и мне? :-) Пришло время упростить этот процесс с помощью популярного инструмента ollama, полезного для разработчиков и исследователей. Здесь в статье будет упор про терминальное использование на linux, но есть множество разных вариантов GUI - изучайте.
У меня на Винде с 3060 работает довольно шустро. Но когда ввожу длинные тексты на русском для классификации, отказывается отвечать на русском вообще.
А как ей настраивать SYSTEM (системный промпт)?
И как запускать модели пользователей? https://ollama.com/sergo1217/rugpt-3.5
Дело в том, что чем длинее контекст тем больше требуется памяти. Соответственно, когда короткий контекст у вас модель влазит в память GPU, а когда длинный - нет и задействуется CPU.