Grok vs ChatGPT vs Claude
Генерация видео от Google

🌟Adam-mini: облегченная версия оптимизатора Adam.

Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.

🌟Adam-mini: облегченная версия оптимизатора Adam.

Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.

Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.

Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:

Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.

🌟Adam-mini: облегченная версия оптимизатора Adam.

SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.

Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.

Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.

🌟Adam-mini: облегченная версия оптимизатора Adam.

▶Текущая реализация Adam-mini поддерживает популярные фреймворки:

🟢DDP distributed framework;

🟢FSDP distributed framework;

🟢DeepSpeed;

🟢Hugginface Trainer;

🟢Torchtitan.

В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:

🟠GPT2 (125M-1.5B), NanoGPT codebase на фреймворке DDP

🟠Llama3-8B, Torchtitan code base на фреймворке FSDP

🟠SFT и RLHF Llama2-7B, ReMax codebase на фреймворке DeepSpeed

▶Локальный запуск :

# # import from source

git clone https://github.com/zyushun/Adam-mini

cd Adam-mini

pip install -e .

# Then use Adam-mini optimizer as follows

from adam_mini import Adam_mini

optimizer = Adam_mini(

named_parameters = model.named_parameters(),

lr = lr,

betas = (beta1,beta2),

eps = eps,

weight_decay = weight_decay,

model_sharding = True,

dim = model_config.dim,

n_heads = model_config.n_heads,

n_kv_heads = model_config.n_kv_heads,

)

# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW

🟡Arxiv

🖥Github [ Stars: 226 | Issues: 8 | Forks: 9]

@ai_machinelearning_big_data

реклама
разместить
Начать дискуссию
3D-пончики, симулятор воды и старая добрая «Змейка»: как пользователи тестируют навыки программирования o3-mini и DeepSeek-R1

Собрали несколько примеров из соцсетей.

3939
77
22
22
11
Здравствуйте, DeepSeek. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова... Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают нагибают солдаты дворца и злодеи. Можно грабить корованы... И эльфу раз лесные то сделать так что там густой лес... А движок можно поставить так что вдали деревья картинкой, когда подходиш они преобразовываются в 3-хмерные деревья. Можно покупать и т.п. возможности как в Daggerfall. И враги 3-хмерные тоже, и труп тоже 3д. Можно прыгать и т.п. Если играть за охрану дворца то надо слушаться командира, и защищать дворец от злого (имя я не придумал) и шпионов, партизанов эльфов, и ходит на набеги на когото из этих (эльфов, злого…). Ну а если за злого… то значит шпионы или партизаны эльфов иногда нападают, пользователь сам себе командир может делать что сам захочет прикажет своим войскам с ним самим напасть на дворец и пойдет в атаку. Всего в игре 4 зоны. Т.е. карта и на ней есть 4 зоны, 1 - зона людей (нейтрал), 2- зона императора (где дворец), 3-зона эльфов, 4 - зона злого… (в горах, там есть старый форт…) Так же чтобы в игре могли не только убить но и отрубить руку и если пользователя не вылечат то он умрет, так же выколоть глаз но пользователь может не умереть а просто пол экрана не видеть, или достать или купить протез, если ногу тоже либо умреш либо будеш ползать либо на коляске котаться, или самое хорошее… поставить протез. Сохранятся можно… P.S. Я джва года хочу такую игру.
реклама
разместить
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.

2424
Чем брокеры по недвижимости, инвестициям и ипотеке отличаются друг от друга и от риэлтора

На рынке недвижимости работают специалисты, выполняющие различные функции. Среди них выделяются брокеры по недвижимости, инвестициям и ипотеке. Часто термины «брокер» и «риэлтор» воспринимаются как синонимы, однако между ними существуют важные различия. В этой статье эксперты компании WEWALL разъяснят, чем отличается работа брокеров разных направле…

Чем брокеры по недвижимости, инвестициям и ипотеке отличаются друг от друга
11
🧠 Убийца o1 и o1-mini
🧠 Убийца o1 и o1-mini
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

11
Лучшие большие языковые модели в ноябре 2024 г
Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

11
11
Гид-доступ на iPhone: Полное руководство по использованию и зачем он нужен

Гид-доступ — это функция универсального доступа в iOS, которая позволяет временно ограничивать использование устройства одной конкретной программой. Это полезно для родителей, преподавателей, владельцев бизнеса и всех, кто хочет контролировать использование iPhone или iPad.

Гид-доступ на iPhone: Полное руководство по использованию и зачем он нужен
Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы
Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы

Нейросети научились писать симфонию и превращать холсты в шедевры. Они умеют даже чувствовать и сопереживать. Если попросить ChatGPT написать грустный стих или весело описать процесс теплообмена — справится быстро не хуже профессионального поэта. А вот умение искусственного интеллекта решать моральные дилеммы и логические задачи пока под вопросом.…

33
[]