learn.epoch8.co – платформа для очистки и структурирования данных

Было у вас такое: в вашем интернет-магазине десятки тысяч товаров, и их надо разложить по каталогу. Или вы провели опрос среди пользователей, собрали две тысячи ответов в свободной форме, и теперь нужно эти ответы классифицировать, чтобы получить статистику? Или нужно присвоить категории запросам в техническую поддержку?

Мы запустили альфа-версию сервиса автоматической классификации текстов и картинок с помощью машинного обучения, learn.epoch8.co. С его помощью можно решать такие задачи с минимальным ручным трудом.

Работает так: загружаете ваши данные на сервис и размечаете небольшую выборку этих данных вручную. А дальше модель машинного обучения тренируется и размечает все остальные данные самостоятельно. Работает для картинок и текстов на русском или английском языке.

Результат можно получить уже через несколько часов, без помощи программистов.

В этой статье мы расскажем, как натренировать ваш классификатор для решения ваших собственных задач по очистке и структурированию данных.

Учим машину классифицировать отзывы из AppStore

Возьмем задачу, которая возникает практически у всех, кто работает с пользователями: это работа с обратной связью. Например, у вас может быть много отзывов в AppStore, обращений пользователей в каналы технической поддержки или, например, маркетинг может принести много заполненных NPS анкет с обратной связью.

Чтобы работать с ответами пользователей, их нужно структурировать: как минимум, присвоить каждому ответу категорию, к которой он относится (например, “сообщение об ошибке” или “запрос нового функционала”).

Ниже расскажем по шагам, как это сделать с помощью машинного обучения и learn.epoch8.co.

Процесс состоит из пяти шагов:

  • Определение нужных категорий

  • Сбор данных

  • Обучение модели
  • Использование модели
  • Улучшение модели

1. Определение нужных категорий

На какие категории нужно классифицировать тексты пользователей – это первый вопрос, на который нужно ответить.

Если мы обучаем классификатор для отзывов, то типовые категории могут быть такими:

  • Запрос нового функционала
  • Багрепорт
  • Платный функционал
  • Общий позитивный комментарий
  • Общий негативный комментарий

При выборе категорий нужно стараться, чтобы они не пересекались: при разметке не должно возникать сомнений, к какой именно категории относится запись: двусмысленность запутает модель.

Если вы тренируете ваш первый классификатор, начинайте с небольшого количества категорий (<10).

Сохраните ваши категории в excel-файле.

2. Сбор данных

Как только вы определили список категорий, нужно подготовить данные, на которых вы будете обучать модель. В идеале в обучающих данных должно быть 100 или больше примеров для каждой категории.

Сохраните ваши данные в excel-файле.

3. Создание классификатора

Список категорий и данные нужно загрузить на сервис через вашего менеджера (он будет помогать вам с того момента, как вы оставите ваши контакты на learn.epoch8.co).

После загрузки данных вы увидите интерфейс модерации.

Каждой записи можно присвоить одну из категорий, список которых вы определили ранее.

После того, как вы промодерируете первые записи, запустится автоматическое обучение.

Теперь модель постарается угадывать и предлагать вам наиболее вероятные категории для записей. Вы можете подтвердить категорию либо исправить ошибку, если модель предсказала не то.

Как только к процессу разметки начинает помогать машинная модель, скорость работы редактора сильно возрастает. Даже самая первая модель предлагает варианты, которые верны как минимум в половине случаев, и редактору остается только согласиться с выбором модели, что сильно экономит время. Замечено, что подтверждение корректной записи занимает в 5 раз меньше времени, чем самостоятельная разметка.

После первого запуска цикла обучения вам будет доступна статистика по качеству работы модели.

Мы видим, сколько предсказаний смогла сделать модель и сколько записей она отнесла к каждой категории.

Precision (точность) – наша главная метрика, которая показывает, сколько в процентах записей модель угадывает (например, то, что отзыв относится к категории “Багрепорт” модель корректно угадывает в 72% случаев).

Recall – это метрика, которая показывает, сколько записей из имеющихся модель находит (например, мы знаем, что модель находит 85% имеющихся у нас записей категории “Багрепорт”).

И, наконец, метрика Support показывает, на каком количестве записей построена эта статистика. Чем выше значение Support, тем точнее статистика.

4. Использование модели

Вы можете остановить обучение модели в тот момент, когда получившееся качество будет вас устраивать. Например, при классификации отзывов из AppStore вы можете остановить обучение, достигнув качества в 90% (это будет означать, что из 100 отзывов 90 модель раскладывает по категориям правильно, а в 10 случаях ошибается).

Когда ваша модель готова, вы можете загрузить на сервис новые данные и получить для них предсказания категории, выгрузив их в csv-файл или забрав с помощью API.

5. Улучшение модели

Самый простой способ улучшить качество модели – добавить больше данных к обучению. Количество данных, которые нужно разметить для того, чтобы получить хорошее качество, сильно зависит от задачи. По нашим наблюдениям, для многих задач достаточно от 20 до 100 примеров на категорию.

При разметке важнее обеспечить качество, а не количество. Лучше разметить меньше данных, но быть на 100% уверенными в том, что разметка корректна: если даже человек ошибается, то модель тоже не выдаст хорошего качества.

Посмотрим, что получилось

В рамках этой статьи мы обучили простую модель категоризовать отзывы из AppStore.

Давайте посмотрим, что получилось. Демо-стенд доступен на demo.epoch8.co:8000

Запросить доступ к сервису и протестировать работу сервиса на своих данных можно тут: https://learn.epoch8.co

0
2 комментария
Dmitry Myachin
Ну вы вообще молодцы. Можете уже ничего и не делать.

:)

Ответить
Развернуть ветку
Evgeny Kuryshev

Боюсь что базовый sentiment анализ еще пилить и пилить...

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда