Зачем запускать модели локально?
Первое - приватность и безопасность. Ваши данные остаются у вас, никаких утечек.
Второе - автономность. Работают без интернета, вы не зависите от связи, доступов, блокировок.
Третье - стоимость. С одной стороны экономия - не платите за подписки и токены. С другой - понадобится своё железо, желательно с GPU видео-картой.
Топовые модели уровня грандов ChatGPT, Claude конечно не запустите. Но в опенсорсе много компактных квантизированных моделей от Qwen, DeepSeek, Mistral. Даже OpenAI выдал в том году открытую модель серии gpt-oss.
Они будут работать и на ваших лаптопах, и уж тем более на серверах.
Попробуйте!
Начните с Ollama - это как Docker для LLM. Установили, скачали модель одной командой, запустили.
Альтернатива - LM Studio с графическим интерфейсом. Он покажет, достаточно ли у вас ресурсов для запуска конкретной модели.
Интегрируйте со своим ассистентом через OpenAI-совместимый API - используйте тот же код, что и в прошлой теме с облачными моделями.
Для продакшена используйте VLLM - она оптимизирована для быстрого инференса моделей!
📚 Полезные материалы в моем телеграмм канале в посте по ссылке
🔔 Следующая тема: мультимодальность! Подпишитесь, чтобы не пропустить!
Больше про AI-coding ИИ-агентов в моем Telegram-канале AI.Dialogs.
По любым вопросам и предложениям пишите мне в личку smirnoff_ai.