Важно отметить, что практика использования батча размером 1, часто рекомендуемая в обучающих материалах для GPU с малым объемом VRAM, может приводить к медленному обучению. Если видеопамять позволяет, размер батча следует увеличивать до разумного значения. Накопление градиентов также может привести к замедлению, поэтому на A100/H100 сначала лучше ставить дефолтный 1. Поэтому при переходе, например, с 4090 на A100, необходимо внимательно подбирать оптимальные параметры, чтобы максимально использовать возможности GPU.
О, вот это новость! Надо будет в чате коллегам скинуть.
Ну, это было ожидаемо, я не удивлен.
H100 интересный зверь