О качестве данных для машинного обучения

Привет, меня зовут Юрий Кацер, я - эксперт по анализу данных и машинному обучению в задачах промышленности. Чуть больше обо мне можно узнать на моей странице. Также я пишу на медиум.

Это первая статья, надеюсь, из многих, но в ближайших нескольких постах я планирую поговорить о данных, проблемах в них, методах предварительной обработки с точки зрения машинного обучения и о задачах, которые машинное обучение может решать в промышленности. Информация из данного поста также доступна на английском языке по ссылке на медиуме.

Не является секретом, что для обучения искусственного интеллекта (ИИ) и моделей машинного обучения нужны данные, это одна из трёх важных компонент для возможности применять ИИ на практике (наряду с алгоритмами и признаками) согласно этой статье:

Подробнее о составляющих стоит почитать в статье по ссылке выше

Качественные наборы данных многими компаниями ценятся больше алгоритмов.

Но многие почему-то забывают, что важно иметь не просто данные, а данные высокого (или хотя бы приемлемого) качества. Есть даже такое известное выражение про машинное обучение: garbage in-garbage out, что значит плохие данные на входе - плохой результат на выходе. Это одно из серьезных ограничений на сегодня (непонимание этого правила и само отсутствие качественных данных) для более успешного и масштабного внедрения машинного обучения в бизнес.

Если мы говорим про промышленность, то можно заметить относительно большое количество данных (часто достаточное для внедрения ИИ), собираемое на производствах за счёт наличия различных информационных систем: mes, erp, асу тп и др. При этом часто верно следующее высказывание про данные:

Объем бьет качество в большинстве случаев.
Александр Хайтин

Несмотря на эти факты, как правило, сбор данных и внедрение систем, включая установку датчиков, не были направлены на сбор данных для ИИ, а решали свои локальные задачи (анализ инцидентов, диагностика, отчетность, ручной мониторинг процесса, требования нормативной документации), поэтому сбор данных не организован оптимальным образом, а встречаются следующие ограничения:

Сбор данных не всего процесса,
Отсутствие сохранения данных,
Отсутствие разметки (бумажные журналы об инцидентах или их отсутствие/некачественное ведение),
И др.

Часто можно увидеть следующую картину (<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DWbPcXEmA6-Q%26amp%3Blist%3DWL%26amp%3Bindex%3D14&postId=405005" rel="nofollow noreferrer noopener" target="_blank">источник</a>)

Это скорее фундаментальные проблемы процесса сбора данных, которые не позволяют даже поставить задачу, и в таких случаях даже большие накопленные объемы данных могут не помочь. Решаются подобные проблемы организационными мерами и ручным трудом, но есть набор проблем с данными, которым можно решить с помощью методов предварительной обработки. Тут мы и подошли к самому интересному, но об этом в следующих постах.

Я создал телеграм канал DataKatser, где появляюсь гораздо чаще и делюсь своими мыслями и интересными кейсами по data science, машинному обучению и искусственному интеллекту. Буду рад вашей подписке!