Для получения корректных результатов необходимо провести предобработку входных данных. Для этого, используя простые регулярные выражения, очищаем текст от цифр, знаков препинания и прочих символов, не несущих ценности. Далее наш текст необходимо лемматизировать, то есть привести к начальной форме каждое слово.
Немного странно: статья типа про Deep Pavlov, а вся работа делается в sklearn. Насколько я знаю, в Deep Pavlov'е гораздо более мощные модели, чем TF-IDF с простеньким классификатором.