Большой объём данных для машинного обучения — не панацея

Модели глубокого обучения обладают потрясающим свойством — они становятся лучше с увеличением объёма данных, и кажется, что этот процесс практически неограничен. Чтобы получить качественно работающую модель, недостаточно больших объёмов данных, нужны ещё и точные аннотации. Хотя большие объёмы данных помогают модели решать проблему несогласованности данных в разных аннотациях, люди всё равно могут совершать повторные ошибки, укореняющиеся в модели.

Например, когда человеку нужно нарисовать вокруг объекта прямоугольник, он обычно стремится, чтобы объект точно попал в этот прямоугольник, то есть склонен ошибаться в сторону увеличения прямоугольника. Использование такой модели для избегания столкновений приведёт к ложноположительным результатам, из-за чего беспилотный транспорт будет останавливаться без причины.

Превышение размера ограничивающих прямоугольников — пример систематической ошибки, а бывают ещё и случайные. Случайные и систематические ошибки влияют на обученную модель по-разному.

Из-за случайных ошибок модели требуется больше данных, чтобы сойтись к тому же результату. Модель, обученная на данных со случайными ошибками, в конечном итоге придёт к тем же параметрам, только медленнее и с необходимостью большего количества данных.

Из-за систематических ошибок модель сходится к другому результату, и увеличением количества данных ситуация не улучшается. Модель, обученная на слишком крупных прямоугольниках, будет возвращать слишком крупные прямоугольники вне зависимости от количества данных обучения.

Простой, хотя и дорогостоящий способ работы со случайными ошибками заключается в использовании большего количества данных обучения. Также существуют более сложные и экономичные подходы, например, если данные обучения взяты из различных источников и если каждый источник имеет разную величину случайных ошибок, то можно сгладить влияние ошибок, при обучении придав источникам с меньшим количеством ошибок больший вес.

С другой стороны, систематические ошибки можно устранить только исправлением данных или разобравшись в природе ошибки в такой степени, чтобы превратить её в случайную. В этой области существует множество интересных техник, в том числе Golden Label Correction, при которой вы аккуратно аннотируете подмножество данных, чтобы характеризовать степень неслучайности остальной части данных.

В конечном итоге, чтобы эффективно и экономно преодолевать ошибки аннотирования, нужно понять, как генерируются ошибки. Ещё раз рассмотрим пример со слишком большими ограничивающими прямоугольниками. Учитывая склонность неопытных работников к преувеличению прямоугольников, наша компания использует простые модели для проверки на превышение размеров. Со временем, благодаря обратной связи от этих моделей, работники учатся делать меньше систематических ошибок, рисуя более точные ограничивающие прямоугольники. Совместив подробные спецификации аннотирования с обучением аннотаторов и пониманием систематических ошибок, мы можем эффективным образом создавать качественные аннотации в больших масштабах, упрощая экономичное обучение точных моделей.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Chiao-Lun Cheng

#инструментыдляразметки #разметкадатасета

Большой объём данных для машинного обучения — не панацея

Случайные и систематические ошибки

Стратегии устранения этой проблемы