Нужно просто разметить все тексты в датасете на два типа. В вашем случае - "спам" или "не спам", точно также и как в описанном кейсе. Ровно это и сделали наши заказчики. Отдельно собирать слова не требуется.
Дополнительная разметка или обогащение датасета требуется, когда точности классификации недостаточно.
Добрый день, спасибо за комментарий. Можем применить. Подводные камни - это собрать датасет.
Напишем в следующих статях. Спасибо за интерес
Да, если правильно найти баланс между технологией и продуктом
Обязательно раскроем и напишем сюда ссылку на статью, чтобы там продолжить дискуссию
Мы с уважением относимся к читателям и нашим пользователям. Но чтобы описывать технологии нужно расскрывать все дополнительные детали, чтобы неподготовленному человеку было понятно, о чем речь. Это требует серьезной проработки. Мы готовы такую статью выложить, если будет повышенный интерес читателей.
Такая гипотеза у нас есть! Но мы ее не тестировали, потому что пока не можем найти данные. Может у вас есть знакомые?
Подготовим по этому поводу отдельную статью и выложим. Вас устроит?
Обьясните, в чем ваша проблема? Мне не очень понятно. А вы в курсе, что модель можно обучить на одной вопрос-ответной паре, а работать она может на другой? И совсем не важно, сколько вопросов и ответов.
Спасибо. Мотивирует продолжать