Решаем NLP-задачу – как классифицировать тексты по темам?

Расскажем о подходах, позволяющих создать классификатор, автоматически относящий текст к той или иной категории.

Сегодня нам предстоит описать решение задачи по созданию классификатора текстовых документов. Шаг за шагом мы будем пытаться улучшить нашу модель. Давайте посмотрим, что же из этого получится.

33

Нейронные сети, деревья решений и так далее, все эти алгоритмы работают по одному принципу – анализ ключевых слов, порядок в тексте, количество.
Они дают неплохой результат, но имеют свой предел, за который не смогут выйти, так как нужно не просто искать ключевые слова, нужно понимать смысл сказанного.
Ирония или шутка, преувеличение, метафора и многое другое – все это нужно учитывать при анализе теста.
Поэтому, нужны другие алгоритмы, которые будут понимать смысл сказанного.

Ответить