После многих других фич переходим к основному — bag-of-words. Частотный анализ вхождений слов в тексте — примитивная вещь. Перед этим не забываем нормализовать слова. Также на данном этапе стоит хоть как-то ограничить количество слов и, например, по каждому классу взять TOP-30 самых часто встречаемых слов. Разумеется, нам может очень не повезти, и в обучающей выборке будут экземпляры, которые не покажут поведения генеральной совокупности, но никто и не говорил, что модели не требуется сопровождение и ее не нужно дообучать.
Комментарий недоступен
Мы это учитывали. В своей модели мы выделяли местоимения и по лицам и числу. Вы правы про паблики, на нашем графике как раз это и видно.