INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

Prime Intellect (https://www.primeintellect.ai/) объявила о запуске INTELLECT-1 — первого децентрализованного процесса обучения модели с 10 млрд. параметров, приглашая всех желающих внести свой вклад в вычисления.

Процесс построен на опубликованном (https://www.primeintellect.ai/blog/opendiloco) ранее OpenDiLoCo (https://arxiv.org/pdf/2407.07852) — реализации с открытым исходным кодом метода распределенного обучения с низкой коммуникацией (DiLoCo) от DeepMind. OpenDiLoCo уже успешно применили в обучении модели в 1 млрд. параметров.

Теперь Prime Intellect масштабирует этот подход в 10 раз. Это третий шаг в генеральном плане (https://www.primeintellect.ai/blog/introducing-prime-intellect) Prime Intellect по коллективному обучению открытых базовых моделей: от языковых и агентных до научных.

Цель Prime Intellect — поэтапно решить проблему децентрализованного обучения, чтобы AGI был открытым, прозрачным и доступным, предотвращая контроль со стороны централизованных организаций.

▶Детали проекта INTELLECT-1

INTELLECT-1 — модель с 10 млрд. параметров, основанная на архитектуре Llama-3 и обучающаяся на курируемом наборе данных (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407), который состоит из: 55% Fineweb-edu, 20% DLCM, 20% Stackv2 и 5% OpenWebMath. Общее количество токенов датасета — более 6 трлн.

В обучении используется планировщик скорости обучения WSD (https://arxiv.org/abs/2405.18392) , поддерживающий постоянную скорость после начальной фазы warm-up. Ближе к концу обучения, планируется запустить фазу «остывания» для повышения производительности и оптимизации после обучения. Синхронизация сети занимает менее 1 минуты, сводя связь между узлами до 1-2% от общего времени обучения.

▶Prime: фреймворк для децентрализованного обучения.

Prime — фреймворк для отказоустойчивого обучения и динамического подключения ресурсов. Его основные возможности:

🟢ElasticDeviceMesh: распределенная абстракция для отказоустойчивой связи;

🟢Асинхронное распределенное создание чекпоинтов с минимизацией времени блокировки;

🟢Восстановление чекпоинтов в реальном времени;

🟢Пользовательское ядро Int8 All-Reduce: квантование псевдоградиентов;

🟢Максимальное использование пропускной способности: шардинг псевдоградиентов, технология VPN.

🟢Реализация PyTorch FSDP2 / DTensor ZeRO-3: шардинг весов модели.

🟢Выгрузка тензоров в CPU.

Дорожная карта Prime:

🟠Масштабирование до более крупных и мощных моделей в научных, рассуждающих областях и в понимании программного кода;

🟠Разработка системы безопасного и проверяемого вклада в децентрализованное обучение;

🟠Создание фреймворка для инициации децентрализованного цикла обучения.

Присоединиться к проекту можно арендовав на любое время серверные мощности в личном кабинете (https://app.primeintellect.ai/) Prime Intellect или подключив в нем сторонние облачные сервисы GPU.

Поддержка подключения локальных GPU через фреймворк Prime ожидается в будущем, открыт прием заявок через форму (https://form.typeform.com/to/ypVmxqVe). Посмотреть статус обучения INTELLECT-1 можно по ссылке (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI).

▶Локальная установка и запуск фреймворка Prime:

📌Лицензирование кода : Apache 2.0 License.

🟡Страница проекта (https://www.primeintellect.ai/blog/intellect-1#launch-partners-and-contributors) 🟡Документация (https://docs.primeintellect.ai/introduction) 🟡Arxiv (https://arxiv.org/pdf/2407.07852) 🟡Датасет (https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407) 🟡Сообщество в Discord (https://discord.gg/ZTFydGWPKj) 🟡Дашборд прогресса (https://app.primeintellect.ai/intelligence?_gl=1*ciig7n*_gcl_au*MTU1MDM5MzY3LjE3Mjg3MjE2OTI) 🖥GitHub (https://github.com/PrimeIntellect-ai/Prime)

#AI #ML #LLM #Decentralized #Training

INTELLECT-1: первая коллективная децентрализованная тренировка модели с 10 млрд. параметров.

Install uv curl -LsSf https://astral.sh/uv/install.sh | sh source $HOME/.cargo/env

Set up the env uv venv source .venv/bin/activate uv sync --extra all uv pip install flash-attn --no-build-isolation git submodule update --init --recursive

Running DiLoCo: # !! Single GPU setups are currently not supported !! # Using 2 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 1 src/zeroband/train.py @configs/debug/diloco.toml

Using 4 GPUs ZERO_BAND_LOG_LEVEL=DEBUG ./scripts/simulate_multi_node_diloco.sh 2 2 src/zeroband/train.py @configs/debug/diloco.toml