Запуск Llama 405b на своем сервере

В сегодняшней статье мы будем запускать модель Llama 405b на сервере. Llama 405b является одной из самых мощных открытых текстовых моделей, занимающей около 200 Гб памяти, если ее квантизировать в 4 бита при помощи AWQ квантизации. Мы будем использовать проект vLLM, который позволяет задеплоить на свой сервер практически любую нейросеть из Hugging Face.

Запуск Llama 405b на своем сервере

Выбор сервера

Для запуска модели Llama 405b нам нужен мощный сервер с четырьмя видеокартами A100, каждая из которых имеет 80 Гб видеопамяти. Суммарно получается 320 Гб видеопамяти. Примерно 200 ГБ займут веса модели, а остальное останется для контекста. Мы будем использовать сервер от компании immers.cloud, который имеет конфигурацию 4 х A100(80 gb). В качестве операционной системы используется серверная Ubuntu 24.04.

Запуск Llama 405b на своем сервере

Docker

Первым шагом будет установка Docker на наш сервер. Мы будем использовать docker для запуска контейнера vLLM. Docker позволяет существенно упростить установку.

Запуск vLLM

Команда для запуска vLLM будет выглядеть следующим образом:

sudo docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus '"device=0,1,2,3"' -p 8000:8000 --mount type=bind,source=/home/ubuntu/.cache,target=/root/.cache vllm/vllm-openai:v0.5.4 --model hugging-quants/Meta-Llama-3.1-405B-Instruct-AWQ-INT4 --tensor-parallel-size 4 --gpu-memory-utilization 0.94 --dtype half -q awq --disable-log-requests

После запуска к серверу можно слать запросы в OpenAI формате. На клиентской части используются библиотеки OpenAI. Многие программисты уже имеют такой опыт при обращении к ChatGPT по API.

Выводы

Вывод из этого эксперимента заключается в том, что модель Llama 405b доступна для запуска на своем сервере. Однако, производительность сервера может быть не такой высокой, как хотелось бы. Если вам важна приватность или у вас есть огромный объем данных, который может загрузить полностью видеокарты, то это может быть подходящий вариант.

Стоимость аренды сервера составляет около 800 рублей в час. Если снимать сервер на длительное время, то стоимость может быть снижена до 50%. Стоимость внешних API для доступа к Llama 405b начинается от 3 долларов за миллион токенов. Если у вас нет требований к приватности данных или количество запросов относительно небольшое, то проще и выгоднее использовать внешние сервисы, которые предлагают доступ к нейросетям по API.

На моем ютуб канале есть видео о запуске Llama 3 405b и других нейросетей. Рекомендую сервера компании immers.cloud с посекундной тарификацией. Это позволяет протестировать нейросети перед покупкой своего сервера или длительной арендой.

Если вы занимаетесь рендерингом, ИИ или просто любите играть, подписывайтесь на наш Telegram-канал. В нем мы проводим интересные активности, делимся новостями компании и разыгрываем призы

Читать также:

11
Начать дискуссию