Зачем запускать модели локально?

Первое - приватность и безопасность. Ваши данные остаются у вас, никаких утечек.

Второе - автономность. Работают без интернета, вы не зависите от связи, доступов, блокировок.

Третье - стоимость. С одной стороны экономия - не платите за подписки и токены. С другой - понадобится своё железо, желательно с GPU видео-картой.

Топовые модели уровня грандов ChatGPT, Claude конечно не запустите. Но в опенсорсе много компактных квантизированных моделей от Qwen, DeepSeek, Mistral. Даже OpenAI выдал в том году открытую модель серии gpt-oss.

Они будут работать и на ваших лаптопах, и уж тем более на серверах.

Попробуйте!

Начните с Ollama - это как Docker для LLM. Установили, скачали модель одной командой, запустили.

Альтернатива - LM Studio с графическим интерфейсом. Он покажет, достаточно ли у вас ресурсов для запуска конкретной модели.

Интегрируйте со своим ассистентом через OpenAI-совместимый API - используйте тот же код, что и в прошлой теме с облачными моделями.

Для продакшена используйте VLLM - она оптимизирована для быстрого инференса моделей!

📚 Полезные материалы в моем телеграмм канале в посте по ссылке

🔔 Следующая тема: мультимодальность! Подпишитесь, чтобы не пропустить!

Больше про AI-coding ИИ-агентов в моем Telegram-канале AI.Dialogs.

По любым вопросам и предложениям пишите мне в личку smirnoff_ai.