{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

🦾 Обучите и запустите GPT-2 у себя на пк

Андрей Карпатый выпустил llm.c для CUDA чуть больше тысячи строк чистого C кода без зависимостей, которые компилируются меньше чем за секунду.

llama.c – предыдущий проект Карпатого, позволяет запускать llama на любых умных устройствах, а llm.c теперь даёт возможность ещё и тренировать.

Текущее время выполнения каждой итерации в е <3 A 100 40GB PCIe, B=4, T=1024:

- llm.c: 111 мс

- PyTorch: 180 мс

- +torch.compile: 86 мс

- +тензорные ядра fp32: 26 мс

Github

0
Комментарии
-3 комментариев
Раскрывать всегда