Слово «LLM» обычно тянет за собой две ассоциации: «дорогие GPU» и «платить за токены в облаке». Но если вы строите внутренние сервисы, а не новый ChatGPT, архитектура может быть гораздо проще и дешевле: кластер из нескольких CPU‑серверов в своём периметре.
Разберёмся, что даёт такой подход на практике и как по цене одной A100 собрать кластер,…