Для настройки параметров были использованы несколько константных значений, которые применялись к каждой из составных частей конвейерной модели. Например, для векторизации выбираются следующие параметры: минимальное значение количества документов, в которых должно появиться слово (1, 10, 20); доля от общего числа документов, в которых будут исключены часто встречающиеся слова (от 0,85 до 1.00); диапазон токенов, которые рассматриваются в качестве признаков (одиночные символы, а также идущие друг за другом пары, тройки и т.д. – юниграммы, биграммы, триграммы и т.д.); а также признак использования списка стоп-слов в выбранном языке (использовать этот список или нет). Соответствующие параметры были выбраны также для объекта класса TfidfTransformer, выполняющего TF-IDF преобразование, и для линейного классификатора метода опорных векторов LinearSVC. В качестве метрики используется accuracy (точность классификации). Также используется кросс-валидация с параметром k = 5.