Евгений Ботвиновский

+67
с 2019
5 подписчиков
27 подписок

Нужно просто разметить все тексты в датасете на два типа. В вашем случае - "спам" или "не спам", точно также и как в описанном кейсе. Ровно это и сделали наши заказчики. Отдельно собирать слова не требуется.
Дополнительная разметка или обогащение датасета требуется, когда точности классификации недостаточно.

Добрый день, спасибо за комментарий. Можем применить. Подводные камни - это собрать датасет.

Напишем в следующих статях. Спасибо за интерес

Да, если правильно найти баланс между технологией и продуктом

Обязательно раскроем и напишем сюда ссылку на статью, чтобы там продолжить дискуссию

Мы с уважением относимся к читателям и нашим пользователям. Но чтобы описывать технологии нужно расскрывать все дополнительные детали, чтобы неподготовленному человеку было понятно, о чем речь. Это требует серьезной проработки. Мы готовы такую статью выложить, если будет повышенный интерес читателей.

Такая гипотеза у нас есть! Но мы ее не тестировали, потому что пока не можем найти данные. Может у вас есть знакомые?

Подготовим по этому поводу отдельную статью и выложим. Вас устроит?

1

Обьясните, в чем ваша проблема? Мне не очень понятно. А вы в курсе, что модель можно обучить на одной вопрос-ответной паре, а работать она может на другой? И совсем не важно, сколько вопросов и ответов.