Далее, из полученного набора слов отбрасываются стоп-слова, множество которых можно получить через nltk, а оставшиеся слова обрабатываются с помощью лемматизатора в классе MorphAnalyzer из библиотеки pymorphy2. Суть лемматизатора заключается в том, что он приводит слово к своей нормальной форме – лемме. Для существительных и прилагательных это будет именительный падеж в единственном числе, для глаголов, причастий и деепричастий – инфинитив.
так. стоп. фейковые новости это ложные новости, а теперь вопрос : как эта система, может разобрать где правда, а где ложь??
Написано же, что определяет по семантике (используемым словам), характерной для фейк ньюс.
У вас довольно большой датасет. Где вы его брали или откуда парсили ? А то я не могу найти ни одной похожей статьи в открытом доступе.