Рынки данных в Agentic Web: создание инфраструктуры для лицензированных наборов данных.

Рынки данных в Agentic Web: создание инфраструктуры для лицензированных наборов данных.

Почему данные для обучения моделей искусственного интеллекта являются важнейшим цифровым активом.

Когда мы рассуждаем о будущем цифровых экосистем, возникает соблазн мыслить изолированно: музыкальные платформы (как, например, Sound Market) рассматриваются отдельно, наборы данных для обучения искусственного интеллекта (далее - ИИ) и рынки интеллектуальной собственности (далее - ИС) - также как самостоятельные и обособленные элементы.

Но есть ли смысл рассматривать эти понятия в отрыве друг от друга, рискуя упустить их важнейшую связанность в рамках общей системы?! Ведь все они являются гранями единой, взаимосвязанной сети - так называемого Agentic Web - интернета следующего поколения, в котором агенты ИИ действуют наравне с людьми, причём и данные, и музыка, и идеи в этой новой "паутине" циркулируют в рамках единой экономики.

Это не просто теория. Я исследую эти механизмы на базе прототипов, о которых рассказывал в прошлых статьях (статья об Agentic Web, статья о Sound Market), и эти прототипы доступны для ознакомления, хотя она пока находятся в тестовом режиме: Sound Market и Agentic Web.

Одной из важнейших задач, которые призваны решить эти платформы, является создание работающих механизмов лицензирования данных и распределения прав на ИС, и эта необходимость подтверждается возрастающим в последнее время количеством претензий и судебных разбирательств, связанных с нелегальным использованием данных для обучения моделей ИИ.

Можно привести много примеров, но для целей статьи достаточно остановиться на разборе хотя бы одного кейсов.

Рассмотрим, к примеру, недавний судебный прецедент, связанный с Claude от Anthropic.

Решение суда по делу Anthropic: прецедент и предостережение.

В июне 2025 года федеральный суд США постановил, что Anthropic имеет право обучать свою модель Claude на книгах, которые компания законно приобрела, не получая дополнительное разрешение авторов (решение суда PDF).

На самом деле, это важнейший прецедент, но также и предостережение. Хотя этот кейс в некотором смысле "предоставляет" разработчикам ИИ широкую свободу действий в рамках действующего толкования авторских прав, он оставляет нерешёнными вопросы "справедливости", прозрачности и компенсаций.

Как авторы узнают, каким образом используются их произведения?

Какие механизмы гарантируют авторам справедливое вознаграждение, а покупателям - достоверность используемых данных?

Как у авторов, так и у пользователей по-прежнему нет надёжного "канала" для участия в новой экономике ИИ и получения от неё выгоды.

Это решение суда наглядно демонстрирует, почему инфраструктура для лицензированных наборов данных крайне важна: если границы использования данных определяются исключительно правовой системой, создатели данных останутся в проигрыше, потому что у них банально нет работающих инструментов для защиты своих прав (кроме судебных разбирательств, которые являются, по сути, крайней мерой).

Если же вместо этого мы создадим прозрачные, проверяемые рынки данных, то участники (авторы, компании, суды и т.д.) получат функционирующую систему, которая позволит урегулировать правоотношения и снизить вероятность конфликтов, гармонизируя процессы и стимулы.

И модель Agentic Web предлагает решение этих проблем. Вместо того, чтобы рассматривать наборы данных как нерегулируемую «серую зону», предлагается создать на базе блокчейна механизм подтверждения легитимности данных, благодаря чему данные будет возможно отслеживать, проверять и привязывать к системам репутации пользователей.

Искусственному интеллекту необходимы данные, пользователям - легальные данные.

Системы искусственного интеллекта эффективны настолько, насколько качественны данные, на которых они обучаются. Масштаб и сложность современных моделей превратили сами данные для обучения в своего рода инфраструктуру - необходимую, дефицитную и оспариваемую. Однако, в отличие от других видов инфраструктуры, данные для обучения всё ещё находятся в правовой и экономической «серой зоне».

Для устойчивого развития ИИ необходимо соблюсти три основных требования:

  • Происхождение - каждый набор данных должен иметь проверяемый источник и лицензию.
  • Атрибуция и компенсация - создатели должны быть признаны и вознаграждены, если их данные создают ценность.
  • Управление и контролируемость - каждая транзакция, связанная с данными для обучения, должна быть прозрачной и проверяемой.

Без этих механизмов потребители данных сталкиваются с непредсказуемыми рисками, создатели сталкиваются с несправедливым нарушением прав и нелегальным использованием их ИС, а общество наследует (но в ещё более глобальном масштабе) и без того явно выраженную напряженность в сфере распределения прав на интеллектуальную собственность.

Пример Sound Market: музыкальная индустрия как "испытательный полигон".

Прототип Sound Market, о котором подробно рассказывал в одной из статей, наглядно иллюстрирует, как эти описанные выше механизмы могут работать на практике.

Этот проект начинался как целенаправленная попытка решить весьма конкретную проблему: создать механизмы для лицензирования и покупки/продажи музыкальной продукции, а также для сотрудничества людей и инструментов ИИ в музыкальной индустрии в эпоху Agentic Web.

Идея прототипа Sound Market проста, но эффективна: необходимо предоставить авторам контроль над своими произведениями за счёт создания новых форм и механизмов сотрудничества и монетизации контента.

Проще говоря, это платформа, на которой владельцы прав могут лицензировать свой контент - не только для прослушивания, но и специально для обучения моделей ИИ:

  • Художники и издатели могут загружать наборы данных с четкими условиями лицензий.
  • Покупатели могут приобретать доступ и получать подтверждаемые доказательства наличия лицензий.
  • Смарт-контракты гарантируют распредение роялти правообладателям (причём даже когда доход приносят "производные работы").

Музыка - это логичная и "напрашивающаяся" отправная точка, поскольку в этой индустрии уже существует прочная правовая и коммерческая база. Если этот подход сработает для музыки, его можно распространить и на книги, исследовательские статьи, научные базы данных, медицинские записи, изображения и многое другое. Sound Market - это не конечная точка, а шаблон для универсального механизма лицензирования данных.

Те же принципы - прослеживаемость, лицензирование и прозрачный обмен - применимы и к другим творческим сферам. И здесь мы опять возвращаемся к концепции Agentic Web .

Agentic Web: естественная среда для рынков данных.

Как уже писал ранее, Agentic Web - это концепция интернета, в котором автономные агенты действуют, ведут переговоры и совершают сделки от имени людей и организаций (например, DAO - децентрализованных автономных организаций). Ключевым элементом описанного мною прототипа являются торговые площадки - цифровые пространства, в рамках которых осуществляются операции с активами.

Лицензированные наборы данных органично вписываются в эту архитектуру. В рамках маркетплейса Agentic Web данные существуют наряду с другими цифровыми активами, такими как лицензии на программное обеспечение. Благодаря этому агенты ИИ смогут:

  • использовать наборы данных, помеченные машиночитаемыми лицензиями;
  • подтверждать происхождение с помощью криптографических доказательств и аудиторских следов;
  • автоматически выполнять платежи и обеспечивать соблюдение условий лицензий;
  • инициировать потоки роялти всякий раз, когда последующее использование создает ценность.

Это естественное расширение того, что было описано в сфере лицензирования музыки: если можно создать механизм для приобретения прав на использование музыки (к примеру, в своём фильме, игре или рекламе), почему бы не применить ту же логику для случаев, когда необходимо обучить инструмент ИИ - ведь можно приобрести права для обучения модели на основе специальных пакетов данных (например, размеченных наборов медицинских изображений)?

Другими словами, наборы данных становятся просто ещё одной категорией цифровых товаров (наряду с музыкальными файлами, 3D-моделями или виртуальной собственностью). Правила те же: происхождение, подтверждение прав, оплата, репутация.

О последнем пункте поговорим более подробно.

Репутация.

Одной из самых важнейших функций Agentic Web является репутация - причём это не отдельная фича для "украшения" платформы, а сквозной механизм, охватывающий всю экосистему. Каждое взаимодействие, будь то лицензирование набора данных, приобретение товаров и услуг, или участие в децентрализованном сотрудничестве (Deworking), влияет на репутацию пользователя и уровень доверия.

Репутация в данном случае не абстрактна. Это междоменная "валюта доверия", гарантирующая отсеивание недобросовестных "игроков", безопасность покупателей и уверенность создателей контента в том, что они заключают соглашения с проверенными и надёжными пользователями.

Другими словами, репутация не существует отдельно - она встроена во все процессы в рамках системы, где архитектурой может быть предусмотрена подотчетность.

Каждый участник - создатель набора данных, куратор, покупатель, валидатор - имеет репутационный профиль, сформированный на основе проверяемой истории. Этот уровень репутации позволяет агентам отдавать предпочтение наборам данных с высоким уровнем доверия и ограничивает недобросовестных игроков, "загрязняющих" рынок.

Таким образом, Agentic Web обеспечивает как экономический механизм (рынок), так и механизм управления (репутация, контрольные точки, аудит), необходимые глобальному рынку данных.

Заключение: на пути к устойчивой экосистеме данных для ИИ.

Споры об ИИ и авторском праве не могут быть разрешены лишь благодаря судам. Каждое судебное решение, как и недавнее дело Anthropic, которое мы рассмотрели выше в качестве примера, создаёт прецедент, но речь в данном случае идёт о следствии, а не о причине. Чтобы решить проблему кардинально, необходимо обеспечить инфраструктуру, которая действительно нужна обществу.

Создавая рынки данных, мы можем:

  • предоставить создателям прозрачные механизмы для лицензирования данных.
  • предоставить разработчикам и исследователям ИИ надёжный доступ к данным для обучения моделей.
  • предоставить обществу инструменты, позволяющие благодаря инновациям поддерживать эффективную систему распределения прав на ИС.

Данные для обучения - это топливо для ИИ. Если мы хотим, чтобы ИИ развивался устойчиво и легально, необходимо создать систему, в которой наборы данных будут реальным цифровым активом, и описанная модель Agentic Web уже предлагает архитектуру, позволяющую воплотить это в жизнь.

*Данная статья не является рекламной или коммерческой, она опубликована в образовательных целях.

Начать дискуссию