Первым шагом требуется составить словарь. Если взять в качестве словаря все слова русского языка, то размер будет настолько велик, что для обработки потребуется огромное количество ресурсов, явно превышающего возможности обычного компьютера. Да и запросы, которые необходимо представить в виде вектора содержат в среднем по три слова, а значит, что вектор будет содержать огромное количество нулей и только несколько единиц. Напрашивается вывод, что словарь должен состоять из слов, встречающихся в запросах, список которых в свою очередь должен быть достаточно велик. Но в общем списке будут встречаться символы, числа, которые не несут смысловой нагрузки поэтому они не должны попасть в словарь. Также стоит объединить одни и те же слова с разными окончаниями, сделать это можно применив к входным данным алгоритм стемминга. Суть этого метода заключается в определении основ словоформ. Этот алгоритм позволяет отсечь суффиксы и окончания, учитывая специфику языка.
Словарь для рассматриваемых запросов будет иметь вид: