Как мы сократили расходы на LLM в 40 раз и отказались от облачных моделей — опыт enterprise-внедрения

Демо за вечер, кризис на неделю

В 2023 году мы решили добавить LLM в enterprise-продукт для интеллектуальной обработки документов (IDP). Первый прототип на Python собрали за вечер: он понимал свободные формулировки, находил скрытые связи и генерировал структурированные данные. Клиенты в восторге, команда в ударе — казалось, прорыв близко.

Но стоило начать интеграцию в production — всё пошло не так. Система не выдерживала нагрузку в тысячи запросов в секунду. Политика безопасности запрещала вызовы внешних API вроде OpenAI. А попытки встроить LLM в существующий Java-монолит приводили к падениям и нестабильности.

Мы осознали: демо и production — это две разные вселенные. И то, что впечатляет в демо-системе, может стать источником рисков в реальном бизнесе.

Почему enterprise не прощает «хакатон-подход»

Компании из финансового сектора, здравоохранения и госсектора, с которыми мы работаем, предъявляют жёсткие требования:

- Данные не должны покидать периметр — никаких внешних API.
- Задержки строго регламентированы — время отклика должно быть минимальным.
- Система должна масштабироваться — от сотен до тысяч запросов в секунду.
- Решение должно быть предсказуемым в стоимости — без сюрпризов в счетах за облако.

OpenAI и аналоги здесь не работают. Они удобны для стартапов и внутренних инструментов — но не для критически важных бизнес-процессов.

Наш путь к независимости

Мы приняли стратегическое решение: полный отказ от внешних LLM в пользу локальных, дообученных моделей. Это дало три ключевых преимущества:

1. Безопасность и соответствие регуляторике
Данные никогда не покидают инфраструктуру клиента. Это критично для банков, медицины и госструктур — и прямое требование ФЗ-152, GDPR и HIPAA.

2. Контроль над стоимостью
Мы перешли на fine-tuning компактных моделей (1–7 млрд параметров), оптимизированных под CPU. После квантизации (сжатия без заметной потери качества) они запускаются даже на обычных серверах — без дорогих GPU.

Результат: стоимость обработки одного документа упала в 40 раз.

3. Предсказуемая производительность
Инференс вынесен в отдельные высокопроизводительные сервисы. Это обеспечило стабильную задержку, простое масштабирование и отказоустойчивость — без зависимости от состояния внешнего API.

Как мы повысили точность на 10%

Просто заменить OpenAI на локальную модель — недостаточно. Качество могло упасть. Чтобы этого избежать, мы внедрили структурированную генерацию: LLM теперь выдаёт ответы строго по заданной схеме (например, JSON с полями «номер договора», «дата», «сумма»).

Это:
- исключает «галлюцинации» и выдуманные данные,
- упрощает интеграцию с бизнес-логикой,
- повышает точность на 5–10% по сравнению со свободной генерацией.

Для клиента это означает меньше ручной проверки и выше доверие к системе.

Главный вывод: архитектура важнее модели

Многие компании сегодня думают: «Какую модель выбрать — GPT-4, Claude или Llama?» Но на самом деле ключевой вопрос — не в модели, а в архитектуре её использования.

- Если вы делаете внутренний PoC — OpenAI или Python-стек подойдут идеально.
- Но если вы внедряете LLM в критически важный процесс — вам нужна целостная стратегия: безопасность, экономика, масштабируемость, контроль.

Мы пришли к гибридной архитектуре:
- Data Science-команда дообучает модели на Python (это удобно),
- Инженерная команда разворачивает их в production на надёжных стеках (JVM, Go, Rust),
- Всё оркестрируется через Kubernetes, с полной трассировкой и мониторингом.

Такой подход даёт лучшее из двух миров: скорость исследований и надёжность production.

Что это значит для бизнеса?

1. Не верьте демо. Рабочий прототип — это только начало.
2. Считайте TCO (Total Cost of Ownership), а не только точность модели. Облачные API могут разорить вас при масштабировании.
3. Безопасность — не опция. В enterprise вы не сможете использовать внешние сервисы, если работаете с персональными или финансовыми данными.
4. Компактные модели — новая норма. Fine-tuning 3B-модели на своём домене часто даёт лучший результат, чем вызов GPT-4 «из коробки».

Заключение

LLM перестают быть «магией из облака» и становятся компонентом промышленной инфраструктуры — как базы данных или очереди сообщений. И как любой компонент production-системы, они должны быть: безопасными, предсказуемыми и экономически эффективными.

Мы сделали ставку на локальные, контролируемые, оптимизированные решения — и это окупилось сполна. Наши клиенты получили систему, которая работает дешевле, быстрее и надёжнее, чем облачные аналоги.

А вы сталкивались с тем, что LLM-демо не масштабируется в production? Как решаете вопросы безопасности и стоимости при внедрении генеративного ИИ?

Начать дискуссию