Для получения корректных результатов необходимо провести предобработку входных данных. Для этого, используя простые регулярные выражения, очищаем текст от цифр, знаков препинания и прочих символов, не несущих ценности. Далее наш текст необходимо лемматизировать, то есть привести к начальной форме каждое слово.