Копилот не для IT, а для каждого сотрудника: как ИИ возвращает время рядовым специалистам

Привет, друзья! Все больше компаний в России внедряют большие языковые модели (LLM) для внутренних задач: чат-боты для сотрудников, юридические ассистенты, HR-консультанты, IT-поддержка. Но на фоне энтузиазма растёт тревога: а вдруг ИИ начнёт выдавать ложную, но правдоподобную информацию?

sherparpa.ru

Sherpa AI Server

Это явление называется галлюцинацией — и оно особенно опасно в бизнес-среде, где ошибка в расчёте отпускных, трактовке закона или инструкции по безопасности может привести к штрафам, убыткам или репутационным потерям.

К счастью, галлюцинации можно и нужно контролировать. Ключ — в том, чтобы модель не «гадала», а опиралась исключительно на корпоративные данные. Как именно это реализуется на практике — разберём на примере Sherpa AI Server, первой российской платформы для запуска LLM в закрытом контуре, и метода In-Context Fine Tuning, разработанного компанией Sherpa Robotics.

Почему «обычные» LLM галлюцинируют — и как этого избежать

Большинство публичных моделей (включая ChatGPT и аналоги) обучены на общедоступных данных. Они не знают специфики вашей компании: регламентов, договоров, внутренних инструкций. Если спросить: «Как оформить больничный в нашей компании?», модель либо откажет, либо придумает убедительный, но ложный ответ.

Для бизнеса необходима полная привязка к корпоративным знаниям. Основной подход — RAG (Retrieval-Augmented Generation):

1. Система ищет релевантные фрагменты в вашей базе знаний.

2. Модели даётся чёткая инструкция: «Отвечай только по предоставленному контексту».

3. Ответ формируется строго на основе этих данных — без домыслов.

Это многократно снижает риск галлюцинаций. Но иногда этого недостаточно — особенно когда требуется специализированный стиль ответа, точная терминология или работа с инструментами (например, запрос в CRM или расчёт в Excel).

Именно здесь на помощь приходит In-Context Fine Tuning — инновационный метод, разработанный Sherpa Robotics.

sherparpa.ru

Sherpa AI Server

In-Context Fine Tuning: дообучение без дообучения

Традиционное fine-tuning (полное переобучение модели) — дорого, долго и рискованно:

● Требует мощных GPU и больших объёмов видеопамяти,

● Может привести к деградации базовой модели,

● Есть риск переобучения или потери обобщающих способностей.

Sherpa Robotics предложила альтернативу — In-Context Fine Tuning. Суть метода:

Вместо изменения весов модели, система динамически подбирает релевантные примеры из внутреннего датасета и вставляет их в контекст запроса — прямо перед генерацией ответа.

Как это работает:

1. Пользователь задаёт вопрос.

2. Система выполняет векторно-семантический поиск не только по документам (как в RAG), но и по архиву примеров корректных запросов и ответов.

3. Находит наиболее релевантные пары «вопрос–ответ» из вашего датасета.

4. Подставляет их в промпт как инструкции в реальном времени.

5. Модель генерирует ответ, следуя именно вашему стилю, логике и формату.

Преимущества In-Context Fine Tuning:

● Не требует видеокарт — работает даже на CPU,

● Базовая модель не деградирует,

● Дообучение в реальном времени — достаточно добавить новый пример в датасет,

● Эффективно даже при малом объёме данных,

● Комбинируется с RAG для максимальной точности.

Реальные кейсы: где это уже работает

BI-бот для производственного учёта

Задача: аналитикам нужно быстро получать данные о простоях, отклонениях от плана, трендах. Решение:

● Использован In-Context Fine Tuning с датасетом из 200+ примеров запросов и SQL-запросов.

● Модель научилась понимать термины («план по смене», «время простоя», «выход годных») и формировать аналитические выводы. Результат:

● Скорость получения данных — в 5 раз быстрее,

● Издержки от простоев — сократились в 3 раза,

● 6 аналитиков получили время на стратегические задачи.

sherparpa.ru

Sherpa AI Server

Классификатор обращений в техподдержку

Задача: автоматически распределять тикеты по направлениям (серверы, ПО, сети, БД). Решение:

● In-Context Fine Tuning на базе 500+ размеченных тикетов.

● Модель точно определяет категорию, даже если запрос сформулирован нетехнически. Результат:

● Точность классификации — 98%,

● Скорость обработки — ускорена в 5 раз,

● Замещена 1-я линия поддержки на 75%.

Робот-юрист и HR-ассистент

Во всех кейсах Sherpa Robotics (робот-юрист, HR-бот в MS Teams, чат по F.A.Q.) используется гибрид RAG + In-Context Fine Tuning:

● RAG обеспечивает привязку к актуальным документам (Консультант+, SAP, Confluence),

● In-Context Fine Tuning гарантирует, что ответ будет:

○ В юридически корректной форме,

○ С расчётом по вашим правилам,

○ В тоне, принятом в компании.

Архитектура Sherpa AI Server: безопасность и контроль

Sherpa AI Server — офлайн-платформа, разработанная в РФ:

● Работает на ваших серверах — данные не уходят в облако,

● Поддерживает более 500 открытых LLM,

● Контекст — до 128 000 токенов,

● Совместим с OpenAI API,

Платформа также интегрируется с Sherpa RPA, что позволяет ИИ-модели не только отвечать, но и выполнять действия: создавать документы, обновлять CRM, запускать роботов.

sherparpa.ru

Sherpa AI Server

Главный вывод: ИИ должен быть точным — а не просто «умным»

Галлюцинации — не неизбежный недостаток ИИ, а следствие неправильной архитектуры.

Когда модель работает:

● в закрытом контуре,

● только по вашим данным,

● с контролем через RAG и In-Context Fine Tuning, — она перестаёт быть «говорящей головой» и становится надёжным интеллектуальным сотрудником.

Sherpa Robotics уже реализовала более 40 проектов с применением ИИ, включая BI-аналитику, юриспруденцию, HR и ITSM — без единой жалобы на галлюцинации. Потому что там ИИ не фантазирует. Он ищет, проверяет, следует примерам и цитирует источники.

Именно так и должен работать корпоративный ИИ: точно, безопасно, без галлюцинаций — и на 100% в интересах бизнеса.