Гигиена базы знаний: без неё RAG-система не взлетит. Как подготовить контент за 2–4 недели
RAG-система работает только на чистой базе знаний. Чек-лист на 2–4 недели: каноника, метаданные, шаблоны, роли. Быстрый старт, измеримый эффект, меньше правок.
RAG-система — это не «умный чат», а интерфейс к вашим знаниям. Если знания разрозненные, устаревшие или дублируются — система будет «тянуть» мусор и собирать из него черновики. Ни ИТ-директор, ни коммерция такого не простят. Ниже — короткое, но рабочее руководство: что именно привести в порядок, в какой последовательности и как это влияет на цифры.
1) Что мешает RAG работать (и почему это видно сразу)
- Дубликаты и конфликтующие версии. Менеджеры берут «не тот» шаблон → юридические правки → потерянное время.
- Отсутствие «канонического» источника. Один и тот же регламент лежит в 5 местах; система не понимает, что главнее.
- Плохие названия и метаданные. «Док1_итог_новый(2).docx» — это ад и для людей, и для поиска.
- Нет ролей и границ доступа. RAG не знает, что юристу и маркетологу нужны разные блоки и формулировки.
- Шаблонов мало или они устарели. Генерация превращается в «красивый текст», а не в рабочий черновик.
2) Что привести в порядок (чек-лист на 2–4 недели)
Контент
- Выделите канонические источники (1 место истины на каждый документ/шаблон).
- Удалите дубли и заморозьте устаревшие (мягкое архивирование, видны, но не выдаются).
- Разделите: регламенты / шаблоны / кейсы / справки / SLA / FAQ — это разные сущности.
Метаданные
- Введите минимум полей: Тип, Версия, Дата, Владелец, Статус (актуален/архив), Роль доступа.
- Нейминг: Тип_Название_vMAJOR.MINOR_YYYY-MM-DD.ext (пример: Шаблон_КП_v2.3_2025-08-01.docx).
Шаблоны
- Для топ-10 задач заведите готовые шаблоны (КП, письмо поставщику, пояснительная, ответ клиенту).
- Вставьте якоря для RAG (метки секций), чтобы генерация понимала структуру.
Доступы
- Определите ролевую матрицу (продажи/закупки/юристы/поддержка/маркетинг).
- Закройте «лишний контент» от нецелевых ролей, чтобы RAG не подтягивал ненужное.
3) Как «порезать» документы для поиска (и не сломать смысл)
- Чанкинг по смысловым блокам (подраздел/глава/параграф), а не по страницам.
- Заголовок блока = будущая подсказка RAG. Пишите информативно: «Требования к поставщику по срокам поставки (SLA)».
- Вытаскивайте таблицы как отдельные фрагменты с подписью и контекстом — они плохо индексируются «как есть».
4) Мини-SLA на актуальность (чтобы не завоздушилось через месяц)
- Назначьте владельцев разделов (ответственность за актуальность).
- Введите ритм-чек: раз в месяц авто-отчёт «что изменилось», раз в квартал — быстрая ревизия топ-доков.
- Любая правка в каноническом документе → автоинкремент версии и переиндексация.
5) «Быстрый старт» внедрения: с чего начать, чтобы показать эффект в 2 недели
- Выберите 2–3 частотных сценария (КП, письмо поставщику, ответ клиенту по SLA).
- Соберите канонику + шаблоны только под них (20/80).
- Проставьте метаданные, порежьте по блокам, задайте роли.
- Дайте короткое обучение «на кейсах» (15–20 минут, без «ИИ-лекций»).
- Снимите метрику времени «до/после» — это ваш первый отчёт для руководства.
6) Частые вопросы от ИТ и бизнеса (короткие ответы)
- Нужно ли дообучать модель? Нет. При RAG — работаете на свежих документах; критичнее гигиена базы.
- Как контролировать качество ответов? Ссылки на источник + ответственность владельца раздела + версионность.
- Не вырастут ли риски ИБ? При развертывании в периметре и ролевых доступах — нет; наоборот, меньше «серого» контента.
- А если документов много (100k+)? Начните с приоритетных коллекций. Индексация поэтапно, метрики — по сценариям.
7) Где здесь место продукту
Answer Finder RAG даёт эффект именно там, где база знаний приведена к канону: роли, версии, шаблоны, каноника. Тогда генерация — не «текст ради текста», а черновик в нужном формате со ссылками на утверждённые источники. Упор не на «ИИ», а на управляемый доступ к знаниям.
Вывод
RAG ускоряет людей. Но ускорять по грязной дороге — риск. Приведите дорогу в порядок: канон, метаданные, шаблоны, роли. Это «скучная» работа на 2–4 недели, которая окупится уже в первый месяц — и по цифрам, и по нервам.