Чтобы повысить точность модели мы сделали более 2х классов, благо размеченные данные позволяли это сделать:
· Нейтрально
· Положительно
· Отрицательно
· Угроза
· Оскорбление
· Непристойность
· Опасность
Собственные данные мы разметили моделью, обученной на первом этапе.
И уже после классификации мы алгоритмически одобряем только первые три класса, остальные 4 отклоняем. Легкая неравномерность распределения итоговых классов сделана неслучайно. В данной задаче лучше отклонить «хороший» отзыв, чем одобрить «плохой».
Может это конечно и полезный маркетинговый интрумент , НО тратить на него кучу времени сил и средств врядли кто либо захочет… ибо в 2023 выхлоп минимален , а тонких троллей все меньше и меньше …. Если вы уж решили таки заняться Фило—лингвистической темой напишите лучше нейросетку для перевода электронных документов хотя бы с английского на русский язык … вчера окинул зорким взглядом площадки и приложения позиционирующийся себя чуть ли не вершинной ИИ…. по факту половину из них протестировать оказалось не возможно , вторая половина оказалась недоведена до ума … кто сделает что либо стоящие получит много много денежак а может и Нобелевскую премию
Евгений, спасибо за комментарий.
Про профит бизнеса мы объяснили в статье. Пропускать токсичные, оскорбительные и непристойные комментарии на сайт нельзя ни в коем случае. А потому модерировать отзывы в любом случае нужно. Каждый отзыв. Пускай лучше этим занимаются машины. Мы сэкономили несколько тысяч человеко-часов.
Теперь про перевод электронных документов. Это только на поверхности кажется, что тема простая. Документы могут быть юридические, медицинские, политические, бухгалтерские, технические и т.д.
Под каждый "диалект" придется обучать отдельную сеть, т.к. одна единственная будет путать домены. Плюс до подачи на перевод нужно определять домен документа – это задача классификации, ее решить просто. А вот обучить несколько сетей для перевода в разных доменных областях задача совсем нетривиальная. И самая большая сложность здесь найти данные для обучения. Эти данные придется искать и аугментировать (дополнять).
Но мы готовы взяться за разработку подобного решения. Приходите, обсудим :)
После запуска системы модерации отзывов, бизнес смог запустить акцию, которая начисляла баллы программы лояльности за то, что человек оставил отзыв.
После запуска акции количество отзывов увеличилось в 8 раз.
Евгений, а мне бизнес-выгоды кажутся весьма понятными )