{"id":13958,"url":"\/distributions\/13958\/click?bit=1&hash=1653c54cdbeec930ff9a7c615ae67978f3e6ecc3d631904994eebf6038843032","title":"\u041b\u0438\u0447\u043d\u044b\u0439 \u043e\u043f\u044b\u0442: \u00ab\u041c\u044b \u043e\u0431\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u0435\u043c \u0437\u0430\u043a\u0430\u0437\u044b \u0441 \u201e\u041c\u0430\u0440\u043a\u0435\u0442\u0430\u201c \u043d\u0430 \u0442\u0435\u043b\u0435\u0444\u043e\u043d\u0435\u00bb","buttonText":"\u041a\u0430\u043a \u044d\u0442\u043e?","imageUuid":"691462d6-61d9-5119-8edb-356852492b15"}

О качестве данных для машинного обучения

Привет, меня зовут Юрий Кацер, я - эксперт по анализу данных и машинному обучению в задачах промышленности. Чуть больше обо мне можно узнать на моей странице. Также я пишу на медиум.

Это первая статья, надеюсь, из многих, но в ближайших нескольких постах я планирую поговорить о данных, проблемах в них, методах предварительной обработки с точки зрения машинного обучения и о задачах, которые машинное обучение может решать в промышленности. Информация из данного поста также доступна на английском языке по ссылке на медиуме.

Не является секретом, что для обучения искусственного интеллекта (ИИ) и моделей машинного обучения нужны данные, это одна из трёх важных компонент для возможности применять ИИ на практике (наряду с алгоритмами и признаками) согласно этой статье:

Подробнее о составляющих стоит почитать в статье по ссылке выше

Качественные наборы данных многими компаниями ценятся больше алгоритмов.

Но многие почему-то забывают, что важно иметь не просто данные, а данные высокого (или хотя бы приемлемого) качества. Есть даже такое известное выражение про машинное обучение: garbage in-garbage out, что значит плохие данные на входе - плохой результат на выходе. Это одно из серьезных ограничений на сегодня (непонимание этого правила и само отсутствие качественных данных) для более успешного и масштабного внедрения машинного обучения в бизнес.

Если мы говорим про промышленность, то можно заметить относительно большое количество данных (часто достаточное для внедрения ИИ), собираемое на производствах за счёт наличия различных информационных систем: mes, erp, асу тп и др. При этом часто верно следующее высказывание про данные:

Объем бьет качество в большинстве случаев.

Александр Хайтин

Несмотря на эти факты, как правило, сбор данных и внедрение систем, включая установку датчиков, не были направлены на сбор данных для ИИ, а решали свои локальные задачи (анализ инцидентов, диагностика, отчетность, ручной мониторинг процесса, требования нормативной документации), поэтому сбор данных не организован оптимальным образом, а встречаются следующие ограничения:

  • Сбор данных не всего процесса,
  • Отсутствие сохранения данных,
  • Отсутствие разметки (бумажные журналы об инцидентах или их отсутствие/некачественное ведение),
  • И др.
Часто можно увидеть следующую картину (источник)

Это скорее фундаментальные проблемы процесса сбора данных, которые не позволяют даже поставить задачу, и в таких случаях даже большие накопленные объемы данных могут не помочь. Решаются подобные проблемы организационными мерами и ручным трудом, но есть набор проблем с данными, которым можно решить с помощью методов предварительной обработки. Тут мы и подошли к самому интересному, но об этом в следующих постах.

Я создал телеграм канал DataKatser, где появляюсь гораздо чаще и делюсь своими мыслями и интересными кейсами по data science, машинному обучению и искусственному интеллекту. Буду рад вашей подписке!

0
Комментарии
0 комментариев
null