learn.epoch8.co – платформа для очистки и структурирования данных

Было у вас такое: в вашем интернет-магазине десятки тысяч товаров, и их надо разложить по каталогу. Или вы провели опрос среди пользователей, собрали две тысячи ответов в свободной форме, и теперь нужно эти ответы классифицировать, чтобы получить статистику? Или нужно присвоить категории запросам в техническую поддержку?

Мы запустили альфа-версию сервиса автоматической классификации текстов и картинок с помощью машинного обучения, learn.epoch8.co. С его помощью можно решать такие задачи с минимальным ручным трудом.

Работает так: загружаете ваши данные на сервис и размечаете небольшую выборку этих данных вручную. А дальше модель машинного обучения тренируется и размечает все остальные данные самостоятельно. Работает для картинок и текстов на русском или английском языке.

Результат можно получить уже через несколько часов, без помощи программистов.

В этой статье мы расскажем, как натренировать ваш классификатор для решения ваших собственных задач по очистке и структурированию данных.

Учим машину классифицировать отзывы из AppStore

Возьмем задачу, которая возникает практически у всех, кто работает с пользователями: это работа с обратной связью. Например, у вас может быть много отзывов в AppStore, обращений пользователей в каналы технической поддержки или, например, маркетинг может принести много заполненных NPS анкет с обратной связью.

Чтобы работать с ответами пользователей, их нужно структурировать: как минимум, присвоить каждому ответу категорию, к которой он относится (например, “сообщение об ошибке” или “запрос нового функционала”).

Ниже расскажем по шагам, как это сделать с помощью машинного обучения и learn.epoch8.co.

Процесс состоит из пяти шагов:

  • Определение нужных категорий

  • Сбор данных

  • Обучение модели
  • Использование модели
  • Улучшение модели

1. Определение нужных категорий

На какие категории нужно классифицировать тексты пользователей – это первый вопрос, на который нужно ответить.

Если мы обучаем классификатор для отзывов, то типовые категории могут быть такими:

  • Запрос нового функционала
  • Багрепорт
  • Платный функционал
  • Общий позитивный комментарий
  • Общий негативный комментарий

При выборе категорий нужно стараться, чтобы они не пересекались: при разметке не должно возникать сомнений, к какой именно категории относится запись: двусмысленность запутает модель.

Если вы тренируете ваш первый классификатор, начинайте с небольшого количества категорий (<10).

Сохраните ваши категории в excel-файле.

learn.epoch8.co – платформа для очистки и структурирования данных

2. Сбор данных

Как только вы определили список категорий, нужно подготовить данные, на которых вы будете обучать модель. В идеале в обучающих данных должно быть 100 или больше примеров для каждой категории.

Сохраните ваши данные в excel-файле.

learn.epoch8.co – платформа для очистки и структурирования данных

3. Создание классификатора

Список категорий и данные нужно загрузить на сервис через вашего менеджера (он будет помогать вам с того момента, как вы оставите ваши контакты на learn.epoch8.co).

После загрузки данных вы увидите интерфейс модерации.

learn.epoch8.co – платформа для очистки и структурирования данных

Каждой записи можно присвоить одну из категорий, список которых вы определили ранее.

learn.epoch8.co – платформа для очистки и структурирования данных

После того, как вы промодерируете первые записи, запустится автоматическое обучение.

Теперь модель постарается угадывать и предлагать вам наиболее вероятные категории для записей. Вы можете подтвердить категорию либо исправить ошибку, если модель предсказала не то.

Как только к процессу разметки начинает помогать машинная модель, скорость работы редактора сильно возрастает. Даже самая первая модель предлагает варианты, которые верны как минимум в половине случаев, и редактору остается только согласиться с выбором модели, что сильно экономит время. Замечено, что подтверждение корректной записи занимает в 5 раз меньше времени, чем самостоятельная разметка.

После первого запуска цикла обучения вам будет доступна статистика по качеству работы модели.

learn.epoch8.co – платформа для очистки и структурирования данных

Мы видим, сколько предсказаний смогла сделать модель и сколько записей она отнесла к каждой категории.

Precision (точность) – наша главная метрика, которая показывает, сколько в процентах записей модель угадывает (например, то, что отзыв относится к категории “Багрепорт” модель корректно угадывает в 72% случаев).

Recall – это метрика, которая показывает, сколько записей из имеющихся модель находит (например, мы знаем, что модель находит 85% имеющихся у нас записей категории “Багрепорт”).

И, наконец, метрика Support показывает, на каком количестве записей построена эта статистика. Чем выше значение Support, тем точнее статистика.

4. Использование модели

Вы можете остановить обучение модели в тот момент, когда получившееся качество будет вас устраивать. Например, при классификации отзывов из AppStore вы можете остановить обучение, достигнув качества в 90% (это будет означать, что из 100 отзывов 90 модель раскладывает по категориям правильно, а в 10 случаях ошибается).

Когда ваша модель готова, вы можете загрузить на сервис новые данные и получить для них предсказания категории, выгрузив их в csv-файл или забрав с помощью API.

5. Улучшение модели

Самый простой способ улучшить качество модели – добавить больше данных к обучению. Количество данных, которые нужно разметить для того, чтобы получить хорошее качество, сильно зависит от задачи. По нашим наблюдениям, для многих задач достаточно от 20 до 100 примеров на категорию.

При разметке важнее обеспечить качество, а не количество. Лучше разметить меньше данных, но быть на 100% уверенными в том, что разметка корректна: если даже человек ошибается, то модель тоже не выдаст хорошего качества.

Посмотрим, что получилось

В рамках этой статьи мы обучили простую модель категоризовать отзывы из AppStore.

Давайте посмотрим, что получилось. Демо-стенд доступен на demo.epoch8.co:8000

Запросить доступ к сервису и протестировать работу сервиса на своих данных можно тут: https://learn.epoch8.co

99
2 комментария

Ну вы вообще молодцы. Можете уже ничего и не делать.:)

Боюсь что базовый sentiment анализ еще пилить и пилить...

Суд приговорил инфоблогера Елену Блиновскую к пяти годам колонии и штрафу в 1 млн рублей

Также суд на четыре года запретил ей заниматься коммерческои деятельностью и удовлетворил гражданский иск на 587 млн рублей.

Источник: Суды общей юрисдикции города Москвы
4343
2929
88
77
55
11
11
Как двойственно - вроде и поделом за тупое дробление и откровенное инфоцыганство, с другой стороны она от бизнеса а не от чинушья , и как то неприятно, когда сажают человека бизнеса
реклама
разместить
В сети алкомаркетов «Ароматный мир» начался корпоративный конфликт — СМИ

Суть спора пока неизвестна. В начале марта 2025 года у ритейлера перестали работать сайт и приложение — компания объяснила это сбоем и «переездом» сайта на новый адрес.

99
77
22
11
11
"Ты меня уважаешь?")
🌀 Ozon и его вечная гонка за ростом: когда инвесторы поймут, что прибыль — это не бонус, а необходимость? Долги, Финтех, Убытки. Разбор отчёта.

Ozon делает всё, чтобы вам понравиться: бешеный рост GMV, финтех, новые клиенты. Но почему при этом чистый убыток взлетел до 59,4 млрд ₽? Где грань между стратегией масштабирования и банальным сжиганием денег?

🌀 Ozon и его вечная гонка за ростом: когда инвесторы поймут, что прибыль — это не бонус, а необходимость? Долги, Финтех, Убытки. Разбор отчёта.
44
Microsoft представила ИИ-помощника Dragon Copilot для врачей

Чтобы те «могли сосредоточиться на пациентах, а не компьютере».

Источник: Microsoft
1414
44
11
Создатель бота для «пробива» данных «Глаз Бога» рассказал, что сервис приостановил работу из-за обысков у поставщика данных

Сервис не работает с 28 февраля 2025 года — тогда СМИ сообщили об обысках у команды «Глаза Бога», но основатель бота это опровергал.

1919
66
22
22
11
Законно собирать и сливать персональные данные можно только некоторым компаниям, это их корова и они её доят.
Я производил 2 млн пачек, зарабатывал 55 млн ₽ в год, попал в топ маркетплейсов, но всему приходит конец

В 2023 я больше всех продавал на маркетплейсах в своей товарной категории, работал со всеми крупными ритейл-сетями, а всего бизнес приносил 1,1 млрд ₽ выручки и 55 млн ₽ прибыли в год.

Теперь можно и руки вытереть, и бюджет посчитать 
129129
1919
77
22
11
11
Прямо чистый понедельник, много нового узнал про производство бумажной продукции. Спасибо и удачи автору в начинаниях
Как агентство Internet Active масштабировало бизнес с Self-Service Hybrid: кейсы и инсайты

11 марта в 12:00 на вебинаре Hybrid Platform директор по маркетингу Internet Active Ефим Пименов и медиабайер Ирина Юшкова поделятся опытом масштабирования агентства с помощью Self-Service решений Hybrid.

Как агентство Internet Active масштабировало бизнес с Self-Service Hybrid: кейсы и инсайты
22
Сервисом по самозапрету на выдачу кредитов воспользовались почти 2 млн человек за два дня

Встроенный помощник «Макс» дал 3,4 млн консультаций о добровольном запрете на кредитование.

1212
33
Теперь каждому, на кого мошенники оформили кредит, начнут говорить: Что ж ты самозапрет не установил? Сам виноват.
[]