Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART

Разметка данных — удалённая работа, которая позволяет участвовать в крупных проектах Яндекса. Именно специалисты по разметке помогают готовить данные для обучения нейросети YandexART, создающей картинки и короткие ролики. Её можно попробовать в Шедевруме, чате с Алисой, в Яндекс Директе для генерации рекламного креатива и на Яндекс Маркете при создании интерьеров для товаров. На примере проекта для YandexART расскажем, что такое разметка, зачем она нужна и как выглядит работа разметчика. Вы узнаете, как проходит обучение, кому подойдёт такая работа и как каждый разметчик влияет на то, что потом создаёт нейросеть.

Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART

Что такое разметка данных?

Сегодня в основе работы многих приложений и сервисов лежат нейросети. Чтобы обучать нейросети, нужны датасеты — это размеченные массивы данных. Материалами для подготовки датасета служат разные общедоступные данные: изображения, аудиозаписи, комментарии, реклама и др. Их сравнивают между собой, присваивают им признаки, выявляют связи между ними, проверяют и удаляют некачественные данные, дубли объектов. Это и есть разметка данных. Затем датасеты используют как примеры, на которых нейросети учатся точнее генерировать тексты, картинки, сортировать объекты, строить гипотезы и выделять закономерности.

Например, если нужно научить нейросеть в приложении распознавать бренды одежды по фотографиям, то датасет — это миллионы размеченных снимков одежды разных брендов. Если нужно научить нейросеть распознавать чириканье воробья, датасетом станут тысячи размеченных аудиозаписей чириканья воробьёв и пения других птиц.

Для совершенствования нейросетей Яндекса размеченные данные нужны постоянно, и с этим связана большая часть проектов в разметке.

Шедеврум начинается с разметки

Один из крупных проектов, для которых необходима разметка, — дообучение нейросети YandexART. Работающее на её базе приложение Шедеврум появилось в 2023 году. С тех пор его установили более 16,5 млн пользователей.

Обновлённый Шедеврум научился создавать похожие на фото изображения с надписями и выбирать подходящий под задачи пользователя стиль. Для такой эволюции нейросети нужна разметка большого массива данных.

Изображения сгенерированы по запросу «Камчатский суслик в отпуске после работы играет на гитаре» 
Изображения сгенерированы по запросу «Камчатский суслик в отпуске после работы играет на гитаре» 

В Яндекс Крауде готовят данные для обучения YandexART с момента её создания, помогая повышать качество генерации.

Почему нельзя упростить процесс и доверить разметку искусственному интеллекту? Ведь данные для датасета можно собирать не только вручную, но и автоматически. Поясняет Марина Каминская, аналитик-разработчик из команды аналитики YandexART:

«Во-первых, автоматически можно размечать только простые изображения. Например, ИИ справится, если стоит вопрос: „Это изображение яблока красного цвета?“ - и в подобных задачах мы действительно используем нашу VLM для оценки. Но если на сложном изображении нужно проверить, чётко и верно ли изображены лица 50 людей, нужны специалисты по разметке. Такого уровня искусственный интеллект не достиг. Во-вторых, эстетичность и красота — вещи субъективные. Сгенерированные изображения будут смотреть люди, картинки должны им нравиться. Поэтому и при разметке нам хочется слышать мнение людей, которые и будут пользоваться Шедеврумом и чатом с Алисой».

В чём состоит работа разметчика на проектах для YandexART?

Команда YandexART обучает несколько версий нейросети, каждая из которых имеет свои особенности, поэтому модели могут по-разному генерировать изображения и надписи. Чтобы понять, какая из моделей лучше справляется с задачами, нужно сравнивать качество создаваемых ими картинок. Благодаря этому пользователи Шедеврума, чата с Алисой и других сервисов, где используется YandexART, увидят ту модель, которая показала себя лучше других. Проверкой, сравнением и оценкой качества картинок от разных моделей как раз и занимаются специалисты по разметке.

После обучения разметчик выполняет задания на одной из платформ компании. На экране он видит две картинки, созданные разными моделями нейросети по одному запросу (промту), и отвечает на вопросы: какая картинка в паре лучше (или они одинаковы) по определённым параметрам. Например, по эстетичности, наличию или отсутствию ошибок. На основе таких сравнений выбирается лучшая из моделей для последующего дообучения.

Вот пример задания, которое видит разметчик на экране:

Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART

YandexART обучена на миллиарде специально отобранных изображений с текстовыми описаниями. Для дообучения нейросети новые данные нужны регулярно. Так, при подготовке версии YandexART 2.0, вышедшей в октябре 2024 года, было размечено 4,5 млн пар изображений, для новой версии YandexART 2.5 — в сумме более 2,3 млн пар изображений. В этот раз в разметке участвовали более 2 тысяч специалистов. В целом количество разметчиков на проекте зависит от масштаба задач.

Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART

Как исключить субъективность оценок разметчиков и минимизировать вероятность ошибки?

Обычно при разметке одно и то же задание делают несколько человек — это так называемое «перекрытие». Например, три разметчика сравнивают одну пару изображений: два специалиста ответили одинаково, а третий — иначе. Тогда выбирается совпадающий ответ от двух разметчиков. Есть и проверочные задания, выпадающие разметчикам случайным образом.

За счёт такой многоуровневой перепроверки датасет получается более качественным. Это важно: ведь от точности разметки зависит, как потом будут работать нейросети, лежащие в основе масштабных сервисов, которыми пользуются миллионы людей.

Ещё одно направление работы на проекте YandexART — сбор датасетов из текстовых запросов к нейросети (промтов). На этих запросах потом замеряется качество моделей. Такие датасеты часто помогают проверить определённый навык модели: генерацию текста, изображений еды, людей, животных и т. д.

Результаты разметки: реалистичнее, красивее, понятнее

Итак, обработка изображений выполнена, очередной этап завершен. Теперь новая YandexART 2.5 помогает пользователям создавать более качественные изображения по сложным запросам.

  • YandexART 2.5 чётче следует инструкциям в промтах и создаёт изображения по множеству параметров. Например, в запросе можно указать число предметов, их форму, цвет, размер и другие характеристики.
Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART
  • YandexART 2.5 поможет разработать дизайн предметов, который можно повторить в реальной жизни: картинки теперь не перенасыщены лишними фантазийными элементами и более реалистичны. Например, можно попросить нейросеть придумать дизайн торта.
Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART
  • Генерация надписи на латинице стала лучше на 30%, чем в прошлой версии. Было подготовлено ещё больше заданий по разметке надписей и проверке качества их генерации.
Специалист по разметке: что это за работа и кому подходит? Рассказываем на примере проекта для нейросети YandexART

В целом по результатам внутренних измерений YandexART 2.5 стала лучше предыдущей версии, а по эстетике и уровню детализации показала более высокие результаты, чем актуальные версии других популярных нейросетей.

Тем временем разметчики уже приступили к обработке нового массива данных, который будет использован для подготовки следующей версии нейросети.

Научиться можно быстро, а график и объём заданий выбираем сами

Как строится работа разметчика?

  • Сначала кандидаты проходят короткое оплачиваемое обучение. Это онлайн-вебинары, сфокусированные на особенностях разметки разных типов данных: изображений, текстов, видео, комментариев, аудио. Исполнители также учатся работать с инструкциями и внутренней платформой компании для разметки.
  • Разметчики могут сами выбирать подходящий объём заданий и работать в удобное время. Нужны только компьютер или смартфон, подключение к сети.

Вот что сами разметчики компании говорят об особенностях работы:

«Я переехала в другой регион, живу за городом, нет возможности ездить на работу в офис каждый день. Начала искать удалённую работу и увидела вакансию специалиста по разметке. Тогда я смутно представляла, что это за разметка данных такая. Изучила информацию и решила откликнуться. Прошла несколько вступительных тестов, и вот я здесь. На удалёнке ты всегда можешь выстроить рабочий день так, как тебе удобно. К тому же экономишь время на дорогу: раньше поездки на работу и обратно занимали около 3 часов в день. Теперь я могу потратить это время на игры и занятия с дочкой».

Мария Паршина-Сомова, специалист по разметке данных

«Нравится возможность удалённой работы, с ней легче найти work-life balance. Привлекают своевременная выплата зарплаты и „белый“ заработок. Преимущества: можно построить свой рабочий график, не нужно тратить время и деньги на дорогу».

Анастасия Гуренко, специалист по разметке данных

Достигать результатов разметчикам помогают усидчивость, готовность фокусироваться на материалах и внимательность к деталям. Как правило, без потери качества разметкой можно заниматься около 5 часов в день. Поскольку глаз замыливается уже часа через два, разметчику важно делать перерывы.

«Работаю уже больше 2 лет. Главное преимущество — возможность строить свой график максимально удобным образом. Можно просыпаться в то время, в которое мне комфортно. Ещё один плюс — возможность работать вне дома. Рабочий день разбиваю на удобные временные интервалы».

Данил Фаридонов, специалист по разметке данных

В Яндекс Крауде заняты уже более 30 тысяч сотрудников из 1000 городов: специалисты поддержки, редакторы, дизайнеры, тестировщики, аналитики — представители 35 профессий. Если вы ищете удалённую работу, присоединяйтесь к нашей команде, чтобы помогать развивать 80+ сервисов Яндекса. Выбрать вакансию, подходящую вам по профилю, интересам и графику, можно на официальном сайте Яндекс Крауда.

12
2
2 комментария