Напоследок скажем, что базу знаний мало создать, важно это сделать в удобной форме. Мы, например, делаем базы в виде порталов. Так как если делать это в формате обычных документов, то в них будут сотни страниц информации, где быстро найти нужное — крайне сложно.
С каким объемом данных можно стартовать базу?
Для клиентского сервиса можно запускать базу знаний в работу с минимальной подготовкой и сразу получать хорошее понимание вопросов. Благодаря предобученной сетке бот понимает вопросы, сформулированные совершенно иначе, чем в примерах. Поэтому он не требователен к объему и качеству обучающей выборки - достаточно 1 или нескольких примеров вопросов. Система хорошо понимает общую лексику, но специфические выражения поначалу даются ей плохо. Поэтому мы предупреждаем заказчиков, что первое время чат-бот может ошибаться и нагрузка на операторов будет уменьшаться постепенно. Сразу после запуска система начинает накапливать обучающую выборку и повышать качество понимания вопросов. Чтобы система быстрее начала понимать специфические термины, мы предусмотрели словарь, который можно заполнить вручную.
Для задач первой линии технической поддержки в базах знаний есть отдельный пайплайн машинного обучения для работы с большими неструктурированными выборками. Когда сотни или тысячи примеров запросов для классификации проблемы - например, обращений на email от пользователей с кратким и подробным текстовым описанием.