реклама
разместить

learn.epoch8.co – платформа для очистки и структурирования данных

Было у вас такое: в вашем интернет-магазине десятки тысяч товаров, и их надо разложить по каталогу. Или вы провели опрос среди пользователей, собрали две тысячи ответов в свободной форме, и теперь нужно эти ответы классифицировать, чтобы получить статистику? Или нужно присвоить категории запросам в техническую поддержку?

Мы запустили альфа-версию сервиса автоматической классификации текстов и картинок с помощью машинного обучения, learn.epoch8.co. С его помощью можно решать такие задачи с минимальным ручным трудом.

Работает так: загружаете ваши данные на сервис и размечаете небольшую выборку этих данных вручную. А дальше модель машинного обучения тренируется и размечает все остальные данные самостоятельно. Работает для картинок и текстов на русском или английском языке.

Результат можно получить уже через несколько часов, без помощи программистов.

В этой статье мы расскажем, как натренировать ваш классификатор для решения ваших собственных задач по очистке и структурированию данных.

Учим машину классифицировать отзывы из AppStore

Возьмем задачу, которая возникает практически у всех, кто работает с пользователями: это работа с обратной связью. Например, у вас может быть много отзывов в AppStore, обращений пользователей в каналы технической поддержки или, например, маркетинг может принести много заполненных NPS анкет с обратной связью.

Чтобы работать с ответами пользователей, их нужно структурировать: как минимум, присвоить каждому ответу категорию, к которой он относится (например, “сообщение об ошибке” или “запрос нового функционала”).

Ниже расскажем по шагам, как это сделать с помощью машинного обучения и learn.epoch8.co.

Процесс состоит из пяти шагов:

  • Определение нужных категорий

  • Сбор данных

  • Обучение модели
  • Использование модели
  • Улучшение модели

1. Определение нужных категорий

На какие категории нужно классифицировать тексты пользователей – это первый вопрос, на который нужно ответить.

Если мы обучаем классификатор для отзывов, то типовые категории могут быть такими:

  • Запрос нового функционала
  • Багрепорт
  • Платный функционал
  • Общий позитивный комментарий
  • Общий негативный комментарий

При выборе категорий нужно стараться, чтобы они не пересекались: при разметке не должно возникать сомнений, к какой именно категории относится запись: двусмысленность запутает модель.

Если вы тренируете ваш первый классификатор, начинайте с небольшого количества категорий (<10).

Сохраните ваши категории в excel-файле.

learn.epoch8.co – платформа для очистки и структурирования данных

2. Сбор данных

Как только вы определили список категорий, нужно подготовить данные, на которых вы будете обучать модель. В идеале в обучающих данных должно быть 100 или больше примеров для каждой категории.

Сохраните ваши данные в excel-файле.

learn.epoch8.co – платформа для очистки и структурирования данных

3. Создание классификатора

Список категорий и данные нужно загрузить на сервис через вашего менеджера (он будет помогать вам с того момента, как вы оставите ваши контакты на learn.epoch8.co).

После загрузки данных вы увидите интерфейс модерации.

learn.epoch8.co – платформа для очистки и структурирования данных

Каждой записи можно присвоить одну из категорий, список которых вы определили ранее.

learn.epoch8.co – платформа для очистки и структурирования данных

После того, как вы промодерируете первые записи, запустится автоматическое обучение.

Теперь модель постарается угадывать и предлагать вам наиболее вероятные категории для записей. Вы можете подтвердить категорию либо исправить ошибку, если модель предсказала не то.

Как только к процессу разметки начинает помогать машинная модель, скорость работы редактора сильно возрастает. Даже самая первая модель предлагает варианты, которые верны как минимум в половине случаев, и редактору остается только согласиться с выбором модели, что сильно экономит время. Замечено, что подтверждение корректной записи занимает в 5 раз меньше времени, чем самостоятельная разметка.

После первого запуска цикла обучения вам будет доступна статистика по качеству работы модели.

learn.epoch8.co – платформа для очистки и структурирования данных

Мы видим, сколько предсказаний смогла сделать модель и сколько записей она отнесла к каждой категории.

Precision (точность) – наша главная метрика, которая показывает, сколько в процентах записей модель угадывает (например, то, что отзыв относится к категории “Багрепорт” модель корректно угадывает в 72% случаев).

Recall – это метрика, которая показывает, сколько записей из имеющихся модель находит (например, мы знаем, что модель находит 85% имеющихся у нас записей категории “Багрепорт”).

И, наконец, метрика Support показывает, на каком количестве записей построена эта статистика. Чем выше значение Support, тем точнее статистика.

4. Использование модели

Вы можете остановить обучение модели в тот момент, когда получившееся качество будет вас устраивать. Например, при классификации отзывов из AppStore вы можете остановить обучение, достигнув качества в 90% (это будет означать, что из 100 отзывов 90 модель раскладывает по категориям правильно, а в 10 случаях ошибается).

Когда ваша модель готова, вы можете загрузить на сервис новые данные и получить для них предсказания категории, выгрузив их в csv-файл или забрав с помощью API.

5. Улучшение модели

Самый простой способ улучшить качество модели – добавить больше данных к обучению. Количество данных, которые нужно разметить для того, чтобы получить хорошее качество, сильно зависит от задачи. По нашим наблюдениям, для многих задач достаточно от 20 до 100 примеров на категорию.

При разметке важнее обеспечить качество, а не количество. Лучше разметить меньше данных, но быть на 100% уверенными в том, что разметка корректна: если даже человек ошибается, то модель тоже не выдаст хорошего качества.

Посмотрим, что получилось

В рамках этой статьи мы обучили простую модель категоризовать отзывы из AppStore.

Давайте посмотрим, что получилось. Демо-стенд доступен на demo.epoch8.co:8000

Запросить доступ к сервису и протестировать работу сервиса на своих данных можно тут: https://learn.epoch8.co

99
реклама
разместить
2 комментария

Ну вы вообще молодцы. Можете уже ничего и не делать.:)

Боюсь что базовый sentiment анализ еще пилить и пилить...

США удвоили пошлины на товары из Китая — с 10% до 20%

Указ о пошлинах приняли в феврале 2025 года.

Источник: Wikimedia
77
11
11
11
реклама
разместить
США начали обсуждать план по смягчению санкций против России — Reuters

Госдеп и Минфин готовят предложение по снятию санкций с отдельных юрлиц и физлиц. С кого именно — неизвестно.

66
22
11
11
Сбербанк отчет за 4 квартал 2024 по МСФО, справедливая стоимость акций и дивиденды за 2024 год.

Сегодня рассмотрим отчет Сбербанка за 4 квартал 2024 года по МСФО, разберемся какие дивиденды выплатит компания за 2024 год, какая справедливая оценка самого большого банка России и может пора докупить акции банка? Давайте разберемся

Сбербанк отчет за 4 квартал 2024 по МСФО, справедливая стоимость акций и дивиденды за 2024 год.
Стоимость биткоина упала за сутки на 9%, до $83,9 тысячи

Как отмечают аналитики, эффект от новостей о включении некоторых монет в крипторезерв США не мог продлиться долго.

66
22
В сети алкомаркетов «Ароматный мир» начался корпоративный конфликт — СМИ

Суть спора пока неизвестна. В начале марта 2025 года у ритейлера перестали работать сайт и приложение — компания объяснила это сбоем и «переездом» сайта на новый адрес.

2020
77
22
11
11
"Ты меня уважаешь?")
Microsoft представила ИИ-помощника Dragon Copilot для врачей

Чтобы те «могли сосредоточиться на пациентах, а не компьютере».

Источник: Microsoft
1818
44
22
Структура сайта детской спортивной секции
Структура сайта детской спортивной секции

Каждая современная детская спортивная секция нуждается в удобном и эффективном сайте. Почему? Потому что сайт становится главным информационным центром для родителей и детей, которые ищут подходящую секцию. Хороший сайт позволяет презентовать секцию и ее конкурентные преимущества широкому кругу людей. Он работает как круглосуточный менеджер по рабо…

Создатель бота для «пробива» данных «Глаз Бога» рассказал, что сервис приостановил работу из-за обысков у поставщика данных

Сервис не работает с 28 февраля 2025 года — тогда СМИ сообщили об обысках у команды «Глаза Бога», но основатель бота это опровергал.

2323
66
22
22
11
Законно собирать и сливать персональные данные можно только некоторым компаниям, это их корова и они её доят.
[]