Но по нашему опыту, чем больше и опытнее становится компания, тем больше становится процессов, которые тянут за собой увеличение количества документальной базы. А еще добавьте сюда фактор размещения информации. Она может храниться в нескольких источниках — корпоративный Confluence, сайт компании, HRM-система и десятки других мест, где хранятся данные о процессах.
Добрый день. Подскажите пожалуйста, какие модели вы выбрали для подготовки ответа и преобразования документа в вектор ?
Интересна стратегия разбивки документов на чанки. Как били? По границам абазацев? Делали дополнительный контекст для чанков? А векторный поиск усиливали традиционным bm25? Реранкинг результатов делали? Рефрэйз / обработку запроса пользователя?