Языковые модели. Локально. Без мам, пап и кредитов.

Я уже писал про языковые модели чутка (ссылка ). Настало время продолжить данное направление и поведать вам про локальный запуск языковых моделей.

Смотрите, существующие большие языковые модели, доступные в браузере (chatgpt, claud, grok, gemini и т.д.), обладают большим количеством параметров (сотни миллиардов) и для своей работы требуют производительное железо с большим (не просто большим, а огромным) количеством постоянной, оперативной и графической памяти. Для питания таких компьютеров/серверов/чего-то_там в асашай даже специально электростанции планируют строить. И тут может возникнуть вопрос, а есть ли возможность запустить языковые модели локально, то есть на своем компьютере/сервере, чтобы всегда был доступ и полностью контролировать весь процесс? Ответ будет «льзя».

Как итог, здравствуйте модели семейства gemma, qwen, phi, llama и т.д. Из теории это все, го к практике.

Для «общения» с языковыми моделями вам необходимо специализированное ПО, среди наиболее известных это LM Studio, Ollama и Docker model runner. Я непосредственно работал именно с LM Studio, поэтому про нее и буду в дальнейшем писать. После установки и запуска вы увидите следующее.

Далее нам понадобится непосредственно сама языковая модель, которая будет крутиться у нас на компьютере, поэтому идем в поиск.

Сейчас отображаются те модели, которые мой текущий компьютер (слабенький ноут 2020 года) вообще позволит запустить, в основном критерием является объем оперативной памяти, ведь именно в нее будет в дальнейшем загружена модель. Чтобы понять, сколько оперативной памяти потребуется, посмотрите на вес самой модели.

Ну 3 гига как постоянной, так оперативной памяти у меня будет

После запуска модели по запросу «напиши пузырьковую сортировку на раст» получил следующее.

Скорость получилась порядка 4 токенов в секунду, что совсем не быстро, и много времени заняли размышления, ведь модель reasoning. На другом, более производительном железе, для модели gpt-oss-20b удалось на CPU получить порядка 8-10 токенов в секунду, а в случае использования GPU скорость была порядка 40 токенов в секунду, что уже позволяет достаточно оперативно использовать модель для достаточно широкого круга задач. И я вам скажу, что это реальный каеф, когда видишь, как моделька пишет тебе, а доступ к интернету отсутствует, магия, йопт.

Ну и конечно же, о преимуществах локального запуска, смотрите:

1) Доступ. Для общения с языковой моделью в браузере в чате (или по апи) вам в обязательном порядке нужен этот ваш энторнет и прямой доступ к серверам (которого может не быть из-за разного вида ограничений/блокировок). При локальном запуске у вас должен быть только доступ к самому компьютеру;

2) Приватность. Как говорится «Если вы не платите за товар, значит вы и есть товар». Вся информация, которая была использована вами при общении с языковой моделью не просто могут, а будут использованы для извлечения выгоды компаниями разработчиками языковых моделей (или будут перепроданы рекламщикам и т.д.);

3) Ограничения. У большого количества больших языковых моделей в бесплатных версиях (не у всех) есть ограничения по количеству запросов. Если сейчас ограничений нет, не исключено, что будут в будущем. Для локальной языковой модели такой проблемы не наблюдается;

4) Стоимость. При использовании локальной языковой модели вы непосредственно никому не платите, да, есть проблема в покупке производительного железа, но в большинстве своем такие компьютеры приобретаются для других задач (если вы понимаете о чем я))) ).

Ну а так вроде все пацаны и пацанята. Ну и не забываем, я разработал чат-рулетку в виде мини-приложение в telegram, как говорится welcome t.me/Twittly_bot/twittly. Затестите, вам не сложно, мне приятно!!!))).

Ссылка на мой telegram канал t.me/socionyxchannel, you are welcome too, где я пишу про будни разработчика.