В связи с тем, что датасет не сбалансирован, метрику «accuracy» (доля верных ответов) использовать нельзя, так как это приведет к завышенной оценке качества работы классификатора. В данном случае самое правильное – считать сразу несколько метрик, устойчивых к распределению классов (в данном случае, это — точность, полнота и f-мера) и смотреть на них все. Однако часто бывает удобно получить не большой набор цифр, а одно число, по которому можно понять, насколько хорошо модель работает. В нашей задаче лучше всего подходит «macro-avg» (сначала подсчитывается каждая метрика по каждому классу, а потом усредняется). Macro-avg более устойчива к скошенным распределениям классов.
Нейронные сети, деревья решений и так далее, все эти алгоритмы работают по одному принципу – анализ ключевых слов, порядок в тексте, количество.
Они дают неплохой результат, но имеют свой предел, за который не смогут выйти, так как нужно не просто искать ключевые слова, нужно понимать смысл сказанного.
Ирония или шутка, преувеличение, метафора и многое другое – все это нужно учитывать при анализе теста.
Поэтому, нужны другие алгоритмы, которые будут понимать смысл сказанного.