Руководство по аутсорсингу разметки данных для машинного обучения

Аннотирование и разметка сырых данных (изображений и видео) для моделей машинного обучения (ML) — это самая длительная и трудоёмкая, хотя и необходимая часть любого проекта компьютерного зрения.

Качественные результаты и точность работы команды аннотаторов непосредственно влияет на точность любой модели машинного обучения, вне зависимости от того, применяются ли к массивам данных изображений AI (искусственный интеллект) или алгоритм глубокого обучения.

Организации из различных сфер (здравоохранения, производства, спорта, ВПК, автоматизации и возобновляемой энергетики) используют модели машинного обучения и компьютерного зрения для решения задач, выявления паттернов и интерпретирования тенденций в массивах данных изображений и видео.

Любой проект компьютерного зрения начинается с разметки и аннотирования сырых данных командами аннотаторов; это огромные объёмы изображений и видео. Успешные результаты аннотирования гарантируют, что модель сможет «учиться» на этих данных обучения, решая задачи, поставленные перед ней организацией.

После формулирования задачи и целей проекта у организаций возникает непростой выбор перед этапом аннотирования: нужно ли отдавать эту работу на аутсорс, или выполнять аннотирование массивов данных изображений и видео собственными силами?

В данном руководстве мы попытаемся найти ответ на этот вопрос, рассмотрев плюсы и минусы аутсорсинга разметки данных видео и изображений по сравнению с разметкой внутри компании. Мы дадим семь рекомендаций и расскажем о том, какие аспекты аннотации и поставщиков услуг разметки данных нужно учитывать.

Как понятно из названия, внутренние разметка и аннотирование данных заключаются в найме внутренней команды аннотаторов массивов данных и специалистов по big data и руководстве ими. В зависимости от сферы, эта команда может состоять из специалистов по изображениям и видео или из профессионалов в других областях аннотирования данных.

Прежде чем вы решите, что именно это вам и нужно, стоит рассмотреть плюсы и минусы внутренней разметки данных по сравнению с аутсорсом этой функции.

Если вы сможете найти, нанять, обучить и удержать команду аннотаторов, менеджеров аннотирования и дата-саентистов/специалистов по контролю качества, то у вас будут трудовые ресурсы для ведения текущих проектов аннотирования внутри компании.
Имея внутреннюю команду, организация может пользоваться преимуществами точного мониторинга, улучшенного контроля качества, более высоких уровней защиты данных и повышенным контролем за результатами и интеллектуальной собственностью (IP).
Благодаря наличию внутренней команды разметчиков данных также упрощается управление комплаенсом, передачей и хранением данных. Всё остаётся внутри компании, нет необходимости беспокоиться о том, что данные утеряются при передаче; однако риск утечки данных всё равно присутствует.

С другой стороны, найм внутренней команды может оказаться чрезвычайно дорогостоящим, особенно если вы хотите, чтобы эта команда находилась близко к командам ML, data science и к другим кросс-функциональным и связанным командам.
Функционирование внутреннего сервиса разметки данных — это задача, зависящая от объёмов. Руководители проектов должны задаться вопросом: какой объём данных должна аннотировать команда? Сколько должен длиться проект? Нужно ли нам, чтобы после его завершения команда аннотаторов начала помогать в решении другой задачи, или мы должны нанимать людей на кратковременный срок?
Выполняющим такие расчёты компаниям также следует учесть, потребуется ли дополнительное пространство в офисе. Кроме того, нужно задаться вопросом, должны ли они будут создавать или покупать специальное ПО и инструменты для проектов аннотирования и разметки данных? Всё это повышает первоначальные затраты на создание команды аннотаторов.
Аннотирование данных изображений и видео нельзя просто скинуть на плечи отделов data science или разработки. Возможно, у них есть необходимые навыки и инструменты, однако для этого проекта требуется специализированная команда, особенно если учесть необходимость контроля качества, вопросы комплаенса и текущую потребность в новых данных для поддержания активного процесса обучения.

Это решение нелегко принять даже опытным руководителям проектов. Во многих случаях на проекты машинного обучения и компьютерного зрения выделяются бюджеты в сотни тысяч и миллионы долларов. Их результаты зависят от качества и точности разметки обучающих массивов аннотирования изображений и видео, и это может существенно повлиять на компанию, её клиентов и владельцев.

Поэтому необходимо рассмотреть и другой вариант: стоит ли отдавать проекты аннотирования данных на аутсорс опытному и проверенному поставщику услуг разметки данных?

Вместо найма внутренней команды многие организации обеспечивают более эффективные инвестиции, заключая партнёрские соглашения со сторонними профессиональными поставщиками услуг аннотирования данных.

Разумеется, такой подход тоже имеет свои риски. Аутсорсинг никогда не бывает гарантией полного успеха, какие бы услуги ни отдавала компания на аутсорс, и какими бы опытными или крупными ни были поставщики услуг. Всегда есть риск того, что что-то пойдёт не так. Не всё будет так, как вы надеялись.

Однако во многих случаях организации, нуждающиеся в услугах аннотирования изображений и видео и разметки данных, обнаруживают, что преимущества перевешивают риски и затраты выполнения этих операций внутренними командами. Давайте внимательнее рассмотрим плюсы и минусы аннотирования и разметки на аутсорсе.

Снижение затрат. При аутсорсинге нет финансовых и юридических требований, связанных с наймом и удержанием внутренней команды аннотаторов. Все затраты берёт на себя поставщик услуг разметки и аннотирования данных, в том числе затраты на офисные пространства, ПО аннотирования, инструменты и технологии. Кроме того, многие поставщики услуг аутсорсинга расположены в регионах и странах с более низким уровнем жизни, что обеспечивает огромную экономию по сравнению с наймом целой команды в США или Западной Европе.
Партнёрство по запросу. После завершения проекта вам не нужно волноваться об удержании команды, пока ей нечем заняться. Преимущество заключается в том, что если в конвейере есть дополнительная работа по аннотированию изображений и видео, вы можете поддерживать долговременные отношения с выбранным поставщиком услуг и обращаться к нему по необходимости.
Возможность увеличения и уменьшения объёмов аннотирования. Если в требованиях вашего проекта аннотирования есть сезонные колебания, то работа с поставщиком аутсорсинговых услуг гарантирует, что вы получите ресурсы тогда, когда они вам необходимы.
Контроль качества и бенчмаркинг. Надёжные поставщики услуг аутсорсинга аннотирования данных знают, что их оценивают по качеству их работы и проектам аннотирования. Внешние поставщики понимают, что им необходимо обеспечивать высокое качество и точность аннотаций, чтобы привлечь долговременных клиентов и повторные контракты. У профессиональных компаний должны быть собственные процессы контроля качества и бенчмаркинга. Если у вас есть внутренние специалисты по data science и ML, вы также сможете оценить работу поставщиков услуг до того, как обучающие массивы данных будут переданы моделям машинного обучения.
Скорость и эффективность. Для найма внутренней команды и управления ею требуется время. Благодаря партнёру, предоставляющему услуги аутсорса, вы можете быстро создавать проекты proof of concept (POC). Кроме того, первоначальная серия аннотированных изображений и видео обычно доставляется достаточно быстро, в отличие от результатов внутренней команды, которой на разгон требуется время.

Что лучше, создать или купить? У обоих вариантов есть свои плюсы и минусы. При передаче на аутсорс мы покупаем услуги аннотирования, а значит, имеем меньше контроля.
Опыт в предметной области. При работе с внешним поставщиком у него может и не быть необходимого вам опыта в конкретной сфере знаний. Организациям из сферы медицины и здравоохранения требуются команды аннотаторов, имеющих опыт в массивах данных аннотирования медицинских снимков и видео. В идеале, вам нужен поставщик, знающий, как работать с разными форматами, аннотировать и размечать их. Например, с такими форматами, как DICOM и NIfTI.
Проблемы сроков и контроля качества. Работая с поставщиком аутсорсных услуг разметки, вам нужно доверять ему в том, что он выполнит работу в заданных временных и денежных рамках. Поскольку процесс аннотирования и команда находятся не под вашим контролем, всегда существует риск срыва сроков и поставки низкокачественных массивов данных. Если такое происходит, руководителям проекта и ML нужно попросить поставщика повторно аннотировать изображения и видео для повышения качества и точности, а также для снижения количества проблем массивов данных, например, перекоса.
Вопросы стоимости. Аннотирование и разметка данных (изображений, видео и других массивов данных) — это конкурентный и общедоступный рынок. Поставщики услуг на нём часто находятся в развивающихся экономических регионах — Юго-Восточной Азии, Латинской Америке, Индии, Африке, Центральной и Восточной Европе, поэтому многие из них предлагают конкурентоспособные расценки. Однако следует помнить, что скупой платит дважды. «Дешевле» не всегда означает «лучше». Когда качество и точность аннотирования массива данных имеют настолько существенное влияние на результаты проектов машинного обучения и компьютерного зрения, нельзя рисковать, ставя вопрос цены выше вопросов экспертизы, контроля качества и надёжности процесса.

Теперь давайте поговорим о том, на какие аспекты поставщика услуг аннотирования следует обращать внимание и как его выбирать.

Аутсорсинг аннотирования данных — надёжный и экономичный способ создания обучающих массивов данных в срок и в рамках бюджета. Как только команда ML получит обучающие данные, она сможет приступить к тестированию модели машинного зрения. На результаты проекта компьютерного зрения существенно влияют точность, качество и объём аннотированных и размеченных изображений и видео.

Следовательно, вам нужен надёжный, опытный и нацеленный на результат поставщик услуг разметки данных. Руководителям проектов стоит искать партнёра, способного удовлетворить следующим требованиям:

Высокое качество и уровни точности, особенно при бенчмаркинге с алгоритмически сгенерированными массивами данных;
Поставщик с подходящей экспертизой и опытом в нужной сфере (особенно когда требуются навыки специалистов, например, работа с массивами данных медицинских снимков);
Использование современных технологий аннотирования и инструментов автоматизации в рамках рабочего процесса;
Адаптируемость и отзывчивость. Часто сроки проектов заданы очень жёстко. Массивы данных могут содержать слишком много ошибок или перекосов, а значит, требовать повторного аннотирования, поэтому вам нужно быть уверенным, что поставщик аутсорсинговых услуг способен справиться с этой работой.
Поставщик услуг должен уметь обрабатывать массивы данных больших объёмов, не растягивая при этом сроки и не жертвуя качеством.

В то же время, руководители проектов ML и компьютерного зрения, занимающиеся взаимодействием с аутсорсинговым партнёром и бюджетом, должны быть внимательными к потенциальным проблемам.

Одни из самых распространённых проблем:

Некоторые аннотаторы из команд поставщика услуг могут быть не столь опытными, как остальные. Аннотирование — это объёмная работа, требующая мыслительных нагрузок, а поставщики услуг часто нанимают новый персонал быстро, чтобы удовлетворять требованиям клиента к объёму массива данных. Если в работе используются не самые современные инструменты и аннотаторы проходят краткое обучение, то они могут и не обеспечить нужную степень точности и объёмы работы.
У аннотаторов могут возникать разногласия, как внутри команды, так и после того, как размеченные изображения и видео переданы клиенту для проверки. В случае слишком больших разногласий или если качество/точность повторно аннотируемых массивов данных увеличиваются несущественно, то это должно стать для вас предостережением.
Следите за качеством, обеспечиваемым поставщиком услуг. Прежде чем передавать данные в модели машинного обучения, дата-саентисты должны выполнять процессы обеспечения качества (QA) и бенчмаркинга. В противном случае, низкокачественные данные отрицательно повлияют на возможности тестирования и результаты моделей компьютерного зрения, а в конечном итоге и на то, сможет ли проект ML решать поставленные перед ним задачи.

Начинайте с малого: организуйте проект Proof of Concept (POC)

Аутсорсинг аннотирования данных всегда должен начинаться с мелкого проекта proof of concept (POC), позволяющего протестировать возможности, навыки, инструменты и команду нового поставщика. В идеале, точность POC должна находиться в интервале 70-80-го перцентиля. Циклы обратной связи от команд ML и data ops могут со временем повышать точность и результаты, а также снижать перекосы в массивах данных.

Столь же важен и бенчмаркинг; чуть ниже мы рассмотрим эту тему и важность оценки внутренних команд аннотирования.

Тщательно контролируйте прогресс

Проекты аннотирования могут иметь жёсткие временные рамки и в них часто ежедневно обрабатываются большие объёмы данных. Мониторинг прогресса — критически важный способ гарантировать своевременную поставку аннотированных массивов данных с нужным уровнем точности и максимально возможным качеством.

Руководителю проекта необходимо тщательно контролировать прогресс и его соответствие внутреннему и внешнему графику поставщика. В противном случае, вы рискуете, что данные будут поставлены спустя месяцы после того, как они должны были поступить в модель компьютерного зрения. После получения первоначальной партии обучающих данных проще оценить точность работы поставщика.

Контролируйте точность и выполняйте её бенчмаркинг

При передаче первого набора изображений или видео в модель компьютерного зрения или ML/AI точность может быть равна 70%. Модель обучается на массивах данных, которые она получает. Повышать точность критически важно. Для улучшения результатов проекта моделям компьютерного зрения необходимы более крупные массивы данных с повышенным уровнем точности, и всё это начинается с повышения качества обучающих данных.

Для этого можно выполнять мониторинг и бенчмаркинг точности на опенсорсных массивах данных и на данных изображений, которые ваша компания уже использовала в моделях машинного обучения. Бенчмаркинг массивов данных и алгоритмов одинаково полезен и эффективен, например, таких как COCO и многих других.

Максимально снижайте количество ошибок и погрешностей

Ошибки и погрешности — это потерянные время и деньги. У поставщиков услуг разметки данных должен существовать отзывчивый рабочий процесс, позволяющий быстро выполнять корректировки и при необходимости повторно аннотировать массивы данных.

Имея подходящие инструменты, процессы и внутренние проактивные команды data ops, вы можете создать специализированные процессы анализа меток, чтобы обеспечить соответствие высочайшим стандартам разметки.

Чем больше времени и труда вы приложите к снижению количества погрешностей, перекосов и необязательных ошибок, тем выше будет уровень качества аннотаций при активной совместной работе с поставщиком услуг разметки.

Выполняйте контроль затрат

Затраты должны тщательно контролироваться, особенно если требуется повторное аннотирование. Руководитель проекта должен обеспечить соответствие затрат с предполагаемыми расходами на проект в рамках приемлемой погрешности. В бюджете любого проекта аннотирования должны существовать средства на непредвиденные расходы.

Однако этот аспект не должен выходить из под контроля, особенно если любые перерасходы времени и затрат являются виной внешнего поставщика услуг аннотирования. Достигните договорённостей по всем этим вопросам перед подписанием контракта, изучите бенчмарки ключевых показателей (KPI) и service level agreement (SLA).

Проверяйте показатели работы поставщика в соответствии с договорёнными сроками, параметрами QA, KPI и SLA, чтобы избежать перерасхода средств на проект аннотирования.

Используйте навыки аннотирования своих команд для оценки качества

Внутренняя команда организации, получающая массивы данных от внешнего поставщика услуг аннотирования, должна иметь навыки для оценки меток на изображениях и видео, а также метаданных качества и точности. Прежде чем приступать к проекту, подготовьте рабочие процессы обеспечения качества, чтобы управлять конвейером поступающих данных. Только после оценки готовых массивов данных (и корректировки всех ошибок) их можно использовать в качестве обучающих данных для моделей машинного обучения.

Используйте инструменты отслеживания показателей

Инструменты отслеживания показателей — неотъемлемая часть процесса аннотирования. В следующем разделе мы рассмотрим их подробнее. Имея подходящие инструменты отслеживания показателей и дэшборд, вы можете создать инструменты рабочего процесса разметки, обеспечивающие качественные результаты аннотирования.

Чётко определённая структура разметки снижает степень неясности и сомнений у аннотаторов. Вы повысите гарантию высококачественных результатов, если команды аннотаторов используют подходящие инструменты для автоматизации разметки данных изображений и видео.

Дэшборды показателей

Руководителям команды Data ops требуется контроль за прогрессом и результатами проекта аннотирования в реальном времени. Имея подходящие инструменты, вы обеспечите возможность наблюдений с нужной степенью детализации для оценки прогресса внешней команды аннотаторов.

Достаточно ли быстро они работают? Достаточна ли точность результатов? На вопросы, которые часто возникают у менеджеров проектов, можно быстро отвечать при помощи дэшборда показателей, даже если аннотаторы работают в совершенно разных часовых поясах.

Дэшборды могут отображать огромный объём информации: обзор показателей каждого аннотатора в проекте, уровень отклонения и принятия аннотаций, потраченное время, объём завершённых изображений/видео за день/на участника команды, типы завершённых аннотаций и многое другое.

Бенчмарки консенсуса

Для обеспечения точности проектам аннотирования требуются бенчмарки консенсуса. Создание аннотаций, меток, метаданных, ограничивающих прямоугольников, классификаций, ключевых точек, треков объектов и десятков других типов аннотаций в тысячах изображений и видео требует времени. При этом неизбежны ошибки и погрешности.

Ваша цель — максимальное снижение количества таких ошибок, погрешностей и некорректных классификаций. Чтобы обеспечить высочайший уровень точности в массивах данных, передаваемых в модели компьютерного зрения, могут использоваться бенчмарк-массивы данных и другие инструменты обеспечения качества.

Обучение аннотированию

При начале работы с новым поставщиком следует потратить время на обучение аннотированию и ознакомление с незнакомыми ему инструментами. Стоит вложить ресурсы в надлежащее инструктаж по аннотированию, особенно если команде аннотаторов предстоит делать то, чего они не делали раньше.

Например, вы можете выбрать поставщика с потрясающим опытом, которому, однако, раньше никогда не доводилось выполнять задачи определения человеческих поз (human pose estimation, HPE). Чтобы избежать ошибок и перерасхода средств, уделите время и силы обучению на этом этапе.

Возможности автоматизации аннотирования

Проекты аннотирования занимают много времени. К счастью, сейчас уже существуют десятки способов ускорить этот процесс. Благодаря мощным и удобным инструментам команды аннотирования могут пользоваться функциями редакторов и автоматизации.

Автоматизация существенно снижает объём ручного труда команд аннотаторов, что обеспечивает более быстрые результаты. Вместо отрисовки тысяч новых меток аннотаторы могут заниматься проверкой автоматизированных меток. Функции аннотирования, проверки и автоматизации позволяют поставщикам услуг снизить время поставки готовых обучающих массивов данных.

<i>Автоматическое сегментирование изображения</i>

Гибкие инструменты, автоматизированная разметка и настраиваемые онтологии — полезные активы для внешних поставщиков услуг аннотирования. В некоторых ситуациях вы можете предоставить команде аннотаторов доступ к своему ПО для интеграции конвейеров аннотирования в процессы обеспечения качества и обучения моделей.

Отдавать аннотирование массивов данных изображений и видео на аутсорс или выполнять его внутри организации? Этот вопрос на определённом этапе задаёт себе каждый руководитель команды data ops. У каждого из вариантов есть свои плюсы и минусы.

В большинстве случаев экономия средств и времени перевешивает затраты и головную боль, связанные с наймом внутренней команды аннотаторов визуальных данных. Если вы подберёте подходящего партнёра, то сможете обеспечить себе ценное долговременное сотрудничество. Однако найти подходящего поставщика непросто.

Возможно, для этого потребуются пробы и ошибки. Усилия, приложенные на этапе выбора, окупят себя, когда вы найдёте надёжного и опытного поставщика услуг аннотирования.

Как понять, что вы нашли хорошего поставщика?

Найти надёжного, высококачественного аутсорс-поставщика услуг аннотирования непросто. Это конкурентный и общедоступный рынок. Поставщики конкурируют с клиентами по цене, пользуются рекламой в медиа, доказывают свой опыт, рассказывая о своих наградах и конкретных примерах решения задач.

Чтобы найти подходящего поставщика, вам может понадобиться время. В большинстве случаев, особенно если ваша организация впервые работает с компанией, занимающейся аутсорс-аннотированием данных, прежде чем остановиться на ком-то одном вам, возможно, придётся попробовать и протестировать несколько проектов POC.

В конечном итоге, единственный способ определить, нашли ли вы подходящего партнёра — это качество, точность, отзывчивость и бенчмаркинг массивов данных для сравнения с требуемыми результатами.

Как найти аутсорс-партнёра по аннотированию?

При поиске поставщика услуг аннотирования и разметки массивов данных пользуйтесь теми же принципами, что и при аутсорсинге любого критически важного сервиса.

Во-первых, начните со знакомых: расспросите людей, которым вы доверяете, узнайте, кого рекомендуют другие и наводите справки о поставщиках, с которыми ваша организация работала в прошлом.

Сравнивайте поставщиков. Читайте обзоры и примеры решения задач. Оцените, какие поставщики имеют подходящий опыт, экспертизу в нужной предметной области, создают впечатление надёжных. При выборе нужно учитывать цену, но не стоит всегда выбирать самый дешёвый вариант. Вы можете разочароваться и обнаружить, что потратили время на поставщика, который не способен справиться с вашими запросами.

Часто полезно бывает одновременно протестировать множество разных поставщиков на массиве данных proof of concept (POC). Подвергните бенчмаркингу и оценке качества и точности массивы данных, которые аннотировал каждый из поставщиков. Внутренние команды аннотирования данных и машинного обучения могут использовать результаты POC для определения наиболее надёжного поставщика, с которым стоит вести долговременные и объёмные проекты аннотирования.

В чём заключаются долговременные последствия выбора аутсорса или аннотирования и разметки данных внутренней командой?

В долговременной перспективе есть весомые аргументы для найма внутренней команды. Вы получаете больше контроля и будете иметь внутренние ресурсы и экспертизу для реализации проектов аннотирования.

Однако руководителям проектов компьютерного зрения стоит сравнить эти плюсы и с услугами стороннего поставщика, которые являются более экономными по финансам и времени. Если вам удастся найти надёжного, нацеленного на качество поставщика с необходимыми вашей компании экспертизой и опытом, то это партнёрство может растянуться и на дальнейшие проекты.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: Dominic Tarn

#разметкаданных #datalabeling #computervision #машинноеобучение #dataannotation #software #dataset #trainingdata #инструментыдляразметки #разметкадатасета

Руководство по аутсорсингу разметки данных для машинного обучения

Что такое «внутренняя разметка данных»?

Плюсы и минусы разметки внутри компании

Плюсы

Минусы

Что такое «аутсорсная разметка данных»?

Плюсы и минусы разметки на аутсорсе

Плюсы

Минусы

Какие аспекты поставщика услуг аннотирования важны?

К чему нужно быть внимательным при выборе партнёра для аннотирования данных?

7 рекомендаций по работе с поставщиком услуг аннотирования

Какие инструменты следует использовать для улучшения результатов команд аннотаторов (внутренних или на аутсорсе)?

Итоги и ключевые выводы

Вопросы и ответы по аутсорсу разметки данных для моделей машинного обучения