iPhone 16e
Nothing Phone 3a
Оживление фото LumaAI
Велосипед Mercedes
Робота научили делать сальто
Grok vs ChatGPT vs Claude
Генерация видео от Google

🌟Adam-mini: облегченная версия оптимизатора Adam.

Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.

🌟Adam-mini: облегченная версия оптимизатора Adam.

Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.

Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.

Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:

Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.

🌟Adam-mini: облегченная версия оптимизатора Adam.

SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.

Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.

Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.

🌟Adam-mini: облегченная версия оптимизатора Adam.

▶Текущая реализация Adam-mini поддерживает популярные фреймворки:

🟢DDP distributed framework;

🟢FSDP distributed framework;

🟢DeepSpeed;

🟢Hugginface Trainer;

🟢Torchtitan.

В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:

🟠GPT2 (125M-1.5B), NanoGPT codebase на фреймворке DDP

🟠Llama3-8B, Torchtitan code base на фреймворке FSDP

🟠SFT и RLHF Llama2-7B, ReMax codebase на фреймворке DeepSpeed

▶Локальный запуск :

# # import from source

git clone https://github.com/zyushun/Adam-mini

cd Adam-mini

pip install -e .

# Then use Adam-mini optimizer as follows

from adam_mini import Adam_mini

optimizer = Adam_mini(

named_parameters = model.named_parameters(),

lr = lr,

betas = (beta1,beta2),

eps = eps,

weight_decay = weight_decay,

model_sharding = True,

dim = model_config.dim,

n_heads = model_config.n_heads,

n_kv_heads = model_config.n_kv_heads,

)

# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW

🟡Arxiv

🖥Github [ Stars: 226 | Issues: 8 | Forks: 9]

@ai_machinelearning_big_data

реклама
разместить
Начать дискуссию
3D-пончики, симулятор воды и старая добрая «Змейка»: как пользователи тестируют навыки программирования o3-mini и DeepSeek-R1

Собрали несколько примеров из соцсетей.

3939
77
22
22
11
Здравствуйте, DeepSeek. Я, Кирилл. Хотел бы чтобы вы сделали игру, 3Д-экшон суть такова... Пользователь может играть лесными эльфами, охраной дворца и злодеем. И если пользователь играет эльфами то эльфы в лесу, домики деревяные набигают нагибают солдаты дворца и злодеи. Можно грабить корованы... И эльфу раз лесные то сделать так что там густой лес... А движок можно поставить так что вдали деревья картинкой, когда подходиш они преобразовываются в 3-хмерные деревья. Можно покупать и т.п. возможности как в Daggerfall. И враги 3-хмерные тоже, и труп тоже 3д. Можно прыгать и т.п. Если играть за охрану дворца то надо слушаться командира, и защищать дворец от злого (имя я не придумал) и шпионов, партизанов эльфов, и ходит на набеги на когото из этих (эльфов, злого…). Ну а если за злого… то значит шпионы или партизаны эльфов иногда нападают, пользователь сам себе командир может делать что сам захочет прикажет своим войскам с ним самим напасть на дворец и пойдет в атаку. Всего в игре 4 зоны. Т.е. карта и на ней есть 4 зоны, 1 - зона людей (нейтрал), 2- зона императора (где дворец), 3-зона эльфов, 4 - зона злого… (в горах, там есть старый форт…) Так же чтобы в игре могли не только убить но и отрубить руку и если пользователя не вылечат то он умрет, так же выколоть глаз но пользователь может не умереть а просто пол экрана не видеть, или достать или купить протез, если ногу тоже либо умреш либо будеш ползать либо на коляске котаться, или самое хорошее… поставить протез. Сохранятся можно… P.S. Я джва года хочу такую игру.
реклама
разместить
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.

2424
Необычные дома, на смену уже надоевшим архитектурным направлениям
🧠 Убийца o1 и o1-mini
🧠 Убийца o1 и o1-mini
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений
Законы масштабирования – архитектура O1 Pro // Инфраструктура синтетических данных, RLAIF, токеномика вычислений

С каждым днем растут страхи и сомнения относительно законов масштабирования ИИ. Большинство предсказателей отрасли ИИ утверждают об окончании законов масштабирования, которые за последние несколько лет привели к мгновенному улучшению возможностей крупных языковых моделей (LLM). К ним присоединились журналисты, вооружившись неопределенной информацие…

11
Лучшие большие языковые модели в ноябре 2024 г
Лучшие большие языковые модели в ноябре 2024 г

В ноябре в ТОП-10 в «LLM Benchmark» произошло много изменений. Также произошли некоторые изменения в том, как мы создаем продукты на основе LLM. Давайте приступим.

11
11
Как понять, что пришло время запускать рекламу за деньги?
Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы
Сможет ли ИИ принять правильное решение? Ответы нейросетей на моральные вызовы

Нейросети научились писать симфонию и превращать холсты в шедевры. Они умеют даже чувствовать и сопереживать. Если попросить ChatGPT написать грустный стих или весело описать процесс теплообмена — справится быстро не хуже профессионального поэта. А вот умение искусственного интеллекта решать моральные дилеммы и логические задачи пока под вопросом.…

33
[]