Копилот не для IT, а для каждого сотрудника: как ИИ возвращает время рядовым специалистам
Привет, друзья! Все больше компаний в России внедряют большие языковые модели (LLM) для внутренних задач: чат-боты для сотрудников, юридические ассистенты, HR-консультанты, IT-поддержка. Но на фоне энтузиазма растёт тревога: а вдруг ИИ начнёт выдавать ложную, но правдоподобную информацию?
Это явление называется галлюцинацией — и оно особенно опасно в бизнес-среде, где ошибка в расчёте отпускных, трактовке закона или инструкции по безопасности может привести к штрафам, убыткам или репутационным потерям.
К счастью, галлюцинации можно и нужно контролировать. Ключ — в том, чтобы модель не «гадала», а опиралась исключительно на корпоративные данные. Как именно это реализуется на практике — разберём на примере Sherpa AI Server, первой российской платформы для запуска LLM в закрытом контуре, и метода In-Context Fine Tuning, разработанного компанией Sherpa Robotics.
Почему «обычные» LLM галлюцинируют — и как этого избежать
Большинство публичных моделей (включая ChatGPT и аналоги) обучены на общедоступных данных. Они не знают специфики вашей компании: регламентов, договоров, внутренних инструкций. Если спросить: «Как оформить больничный в нашей компании?», модель либо откажет, либо придумает убедительный, но ложный ответ.
Для бизнеса необходима полная привязка к корпоративным знаниям. Основной подход — RAG (Retrieval-Augmented Generation):
1. Система ищет релевантные фрагменты в вашей базе знаний.
2. Модели даётся чёткая инструкция: «Отвечай только по предоставленному контексту».
3. Ответ формируется строго на основе этих данных — без домыслов.
Это многократно снижает риск галлюцинаций. Но иногда этого недостаточно — особенно когда требуется специализированный стиль ответа, точная терминология или работа с инструментами (например, запрос в CRM или расчёт в Excel).
Именно здесь на помощь приходит In-Context Fine Tuning — инновационный метод, разработанный Sherpa Robotics.
In-Context Fine Tuning: дообучение без дообучения
Традиционное fine-tuning (полное переобучение модели) — дорого, долго и рискованно:
● Требует мощных GPU и больших объёмов видеопамяти,
● Может привести к деградации базовой модели,
● Есть риск переобучения или потери обобщающих способностей.
Sherpa Robotics предложила альтернативу — In-Context Fine Tuning. Суть метода:
Вместо изменения весов модели, система динамически подбирает релевантные примеры из внутреннего датасета и вставляет их в контекст запроса — прямо перед генерацией ответа.
Как это работает:
1. Пользователь задаёт вопрос.
2. Система выполняет векторно-семантический поиск не только по документам (как в RAG), но и по архиву примеров корректных запросов и ответов.
3. Находит наиболее релевантные пары «вопрос–ответ» из вашего датасета.
4. Подставляет их в промпт как инструкции в реальном времени.
5. Модель генерирует ответ, следуя именно вашему стилю, логике и формату.
Преимущества In-Context Fine Tuning:
● Не требует видеокарт — работает даже на CPU,
● Базовая модель не деградирует,
● Дообучение в реальном времени — достаточно добавить новый пример в датасет,
● Эффективно даже при малом объёме данных,
● Комбинируется с RAG для максимальной точности.
Реальные кейсы: где это уже работает
BI-бот для производственного учёта
Задача: аналитикам нужно быстро получать данные о простоях, отклонениях от плана, трендах. Решение:
● Использован In-Context Fine Tuning с датасетом из 200+ примеров запросов и SQL-запросов.
● Модель научилась понимать термины («план по смене», «время простоя», «выход годных») и формировать аналитические выводы. Результат:
● Скорость получения данных — в 5 раз быстрее,
● Издержки от простоев — сократились в 3 раза,
● 6 аналитиков получили время на стратегические задачи.
Классификатор обращений в техподдержку
Задача: автоматически распределять тикеты по направлениям (серверы, ПО, сети, БД). Решение:
● In-Context Fine Tuning на базе 500+ размеченных тикетов.
● Модель точно определяет категорию, даже если запрос сформулирован нетехнически. Результат:
● Точность классификации — 98%,
● Скорость обработки — ускорена в 5 раз,
● Замещена 1-я линия поддержки на 75%.
Робот-юрист и HR-ассистент
Во всех кейсах Sherpa Robotics (робот-юрист, HR-бот в MS Teams, чат по F.A.Q.) используется гибрид RAG + In-Context Fine Tuning:
● RAG обеспечивает привязку к актуальным документам (Консультант+, SAP, Confluence),
● In-Context Fine Tuning гарантирует, что ответ будет:
○ В юридически корректной форме,
○ С расчётом по вашим правилам,
○ В тоне, принятом в компании.
Архитектура Sherpa AI Server: безопасность и контроль
Sherpa AI Server — офлайн-платформа, разработанная в РФ:
● Работает на ваших серверах — данные не уходят в облако,
● Поддерживает более 500 открытых LLM,
● Контекст — до 128 000 токенов,
● Совместим с OpenAI API,
Платформа также интегрируется с Sherpa RPA, что позволяет ИИ-модели не только отвечать, но и выполнять действия: создавать документы, обновлять CRM, запускать роботов.
Главный вывод: ИИ должен быть точным — а не просто «умным»
Галлюцинации — не неизбежный недостаток ИИ, а следствие неправильной архитектуры.
Когда модель работает:
● в закрытом контуре,
● только по вашим данным,
● с контролем через RAG и In-Context Fine Tuning, — она перестаёт быть «говорящей головой» и становится надёжным интеллектуальным сотрудником.
Sherpa Robotics уже реализовала более 40 проектов с применением ИИ, включая BI-аналитику, юриспруденцию, HR и ITSM — без единой жалобы на галлюцинации. Потому что там ИИ не фантазирует. Он ищет, проверяет, следует примерам и цитирует источники.
Именно так и должен работать корпоративный ИИ: точно, безопасно, без галлюцинаций — и на 100% в интересах бизнеса.