INTELLECT-1: Новый шаг в распределённой тренировке ИИ

INTELLECT-1: Новый шаг в распределённой тренировке ИИ

Как децентрализованная тренировка может изменить подход к созданию языковых моделей

INTELLECT-1 стал первым проектом, где языковая модель с 10 миллиардами параметров была натренирована с использованием распределённых вычислений. Обучение длилось больше месяца и объединило участников из трёх континентов: Европы, Азии и Северной Америки. Результат — модель, обученная на одном триллионе токенов, с общими затратами в 80 тысяч GPU-часов на NVIDIA H100.

Как проводилась тренировка INTELLECT-1

В проекте участвовали около 30 организаций и энтузиастов, включая такие известные компании, как Hugging Face. Участие требовало доступа к мощному оборудованию: минимальной конфигурацией был сервер с 8 графическими картами NVIDIA H100 (80 GB каждая). Все вычисления координировались через платформу Prime Intellect, которая выступает агрегатором GPU-ресурсов.
Большую часть времени регистрация была закрытой, но в следующих этапах тренировки команда INTELLECT-1 планирует открыть доступ для большего числа участников и добавить возможность работы с менее специализированным оборудованием. Это может стать важным шагом к массовой децентрализации тренировок языковых моделей.
Сейчас проект ориентирован на профессиональное оборудование, что ограничивает круг участников, но демонстрирует огромный потенциал распределённых вычислений.

Чем ExtraGPU отличается от INTELLECT-1

Проект ExtraGPU также направлен на децентрализацию вычислений, но использует иной подход. ExtraGPU создаётся как гибкая платформа, которая объединяет мощности как профессиональных, так и потребительских видеокарт. Это делает возможным участие владельцев как серверных, так и домашних GPU, включая профессиональные модели вроде A100 или H100, а также более доступные видеокарты уровня RTX 4090.
ExtraGPU позволяет масштабировать задачи под доступное оборудование, что делает тренировку доступной для широкой аудитории, включая небольшие исследовательские команды и индивидуальных разработчиков. Это не только демократизирует процесс, но и снижает порог входа в создание и обучение языковых моделей.

INTELLECT-1: Новый шаг в распределённой тренировке ИИ

Возможности для будущего

INTELLECT-1 ориентирован на работу с крупными серверами и демонстрирует, как мощное оборудование может быть объединено в единую сеть. В то же время ExtraGPU делает акцент на универсальности и доступности, создавая возможности для тренировки как больших моделей, так и более специализированных решений, распределяя задачи между разным железом.
Оба подхода — INTELLECT-1 и ExtraGPU — не противоречат друг другу, а скорее дополняют. INTELLECT-1 показывает, что возможно объединять большие мощности для крупных проектов, а ExtraGPU позволяет распределить нагрузку по системе с разными уровнями ресурсов, делая такие технологии доступными большему количеству людей.

Результаты INTELLECT-1

Обучение INTELLECT-1 завершено, и создатели уже начали тонкую настройку модели. В ближайшие дни планируется её полноценный релиз, а вскоре команда выпустит и научную статью, в которой расскажет о применённых подходах и используемых технологиях.
Результаты модели оцениваются как сопоставимые с Llama 2 13B — это впечатляющий показатель для проекта, ставшего proof of concept в области децентрализованной тренировки. Использовалась модифицированная версия фреймворка DiLoCo, а весь код процесса уже выложен в открытый доступ на GitHub.

Почему это важно

INTELLECT-1 и ExtraGPU представляют собой шаг вперёд в области децентрализованных вычислений. Эти проекты показывают, что создание языковых моделей больше не обязательно должно быть монополией крупных корпораций с бесконечным бюджетом. В будущем, возможно, любой разработчик сможет присоединиться к тренировке моделей, будь то серверное оборудование или домашний компьютер.
Технологии распределённых вычислений обещают открыть новые горизонты для ИИ, делая процесс обучения доступнее, дешевле и эффективнее.

11
Начать дискуссию