Нужно просто разметить все тексты в датасете на два типа. В вашем случае - "спам" или "не спам", точно также и как в описанном кейсе. Ровно это и сделали наши заказчики. Отдельно собирать слова не требуется.
Дополнительная разметка или обогащение датасета требуется, когда точности классификации недостаточно.
Добрый день, спасибо за комментарий. Можем применить. Подводные камни - это собрать датасет.
Напишем в следующих статях. Спасибо за интерес
Да, если правильно найти баланс между технологией и продуктом
Обязательно раскроем и напишем сюда ссылку на статью, чтобы там продолжить дискуссию
Мы с уважением относимся к читателям и нашим пользователям. Но чтобы описывать технологии нужно расскрывать все дополнительные детали, чтобы неподготовленному человеку было понятно, о чем речь. Это требует серьезной проработки. Мы готовы такую статью выложить, если будет повышенный интерес читателей.
Такая гипотеза у нас есть! Но мы ее не тестировали, потому что пока не можем найти данные. Может у вас есть знакомые?
Подготовим по этому поводу отдельную статью и выложим. Вас устроит?
Обьясните, в чем ваша проблема? Мне не очень понятно. А вы в курсе, что модель можно обучить на одной вопрос-ответной паре, а работать она может на другой? И совсем не важно, сколько вопросов и ответов.
дайте контантый номер программиста, который за 3 рубля
Петр Вы data scientist? Напишите мне в fb
Петр, почему вы такой агрессивный?
У нас есть бесплатный продукт, на котором мы тестируем различные гипотезы, как с точки зрения продукта, UI/UX, так и с точки зрения технологий https://www.bitrix24.ru/apps/?app=supportbot247.faq
На основе данных по использованию этого сервиса у нас есть статистика, как по увеличению количества оставляемых заявок (30% написавших роботу, оставляют заявки после консультации), так и по процентам автоматизации количества отвеченных роботом вопросом (от 30% до 80%).
Как именно устроен робот мы планируем рассказать в нескольких статьях, вот следующая https://vc.ru/tribuna/56065-neyrosetevye-roboty-prodavcy. Если кратко то, это смесь правил ("рулов") и machine learning.
Наша особенность в том, что мы можем стартовать с малого количества размеченных данных - по три примера на каждый вопрос.
Напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581
Сергей, это зависит от специфики вашего бизнеса. Напишите мне в FB, настроим вам аккаунт и покажем https://www.facebook.com/profile.php?id=100009782853581
?
ТЗ дадите? И данные надо собрать еще
the cake is a lie
Константин, напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581 или нам на номер +79060429775 в вотсап
Константин, напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581 или нам на номер +79060429775
Тарас, напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581
Пока нужна предварительная настройка. Напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581
Сергей, напишите мне в FB https://www.facebook.com/profile.php?id=100009782853581
Мы в процессе. Но если серьезно, то до AGI еще далеко. Мы пытаемся сфокусироваться на более ограниченной области общения, чтобы текущих технологий было достаточно для массовой автоматизации.
Спасибо. Мотивирует продолжать