Если мы все сделали правильно, то в результате анализа мы получим словарь, разделенный на категории, каждая из которых представляет собой набор слов, использующихся для описания задач одного типа. Например, у меня получилось 19 категорий (условно обозначены буквами от А до S). Категория C явно относится к HR: "recruitment", "candidates", "vacancies", "selection", "search", "open", "interviewing", "top", "organization", "senior", однако понемногу эти слова встречаются и в должностных инструкциях большинства руководителей. Категория O содержит слова "digital", "marketing", "company", "products", "sales", "strategy", "selling", "channels", "market", "pricing" – они часто употребляются в описании работы маркетологов, а также у сотрудников ИТ, т.к. у них много совместных проектов. Если я сосчитаю сколько задач в должностной инструкции относится к каждой из категорий, я смогу представить каждую должность в виде набора цифровых значений (вектора). Этот набор значений показывает, какие задачи из 19 категорий предполагает каждая из должностей и в каком объеме. Дальше я могу вычислить степень сходства (cosine similarity) между должностями, а также понять, какие именно задачи для сотрудника будут совершенно новыми при переходе, а какие будут лишь повторением старых задач в новом контексте.