Как ИИ-компании переживают “нефтяной кризис”? История о том, как контентные платформы зарабатывают, не делая почти ничего.

Представьте себе мир, в котором искусственный интеллект нуждается в сырье, чтобы существовать и развиваться, подобно тому, как нефть была ключевым ресурсом для промышленной революции. В этом мире информация становится новым золотом, а компании, которые владеют данными и контентом, становятся новыми нефтяными магнатами. История о том, как ИИ компании переживают кризис данных, а платформы по распространению контента зарабатывают миллиарды долларов, не делая при этом ничего.

Прежде чем мы погрузимся в статью, позвольте мне пригласить вас в мой телеграм-канал "Охота за технологиями". Здесь, среди захватывающих новостей и инсайтов, я рассказываю о технологиях, которые не только изменяют мир, но и трансформируют бизнес. Присоединяйтесь к нашему сообществу, читайте, обсуждайте и вместе с нами открывайте тайны современных технологий и их бесконечных возможностей.

Появление ChatGPT и стремительное распространение Midjourney стали настоящими поворотными моментами в развитии искусственного интеллекта, ознаменовав начало эпохи больших моделей ИИ.

Под большими моделями подразумеваются сложные системы машинного обучения с миллиардами параметров и многослойной архитектурой. Эти модели напоминают суперкомпьютеры, которые способны анализировать и обрабатывать гигантские объемы данных. Представьте, что они работают как высококвалифицированные аналитики, которые могут изучить миллионы текстов, изображений и видео, чтобы выдать результат, близкий к человеческому пониманию. Например, ChatGPT может генерировать тексты, отвечать на вопросы и даже писать стихи, используя знания из всех доступных источников. В то же время Midjourney создает потрясающие визуальные образы на основе текстовых описаний, превращая идеи в реалистичные изображения.

Эти модели делают то, что раньше казалось невозможным: они обучаются на огромных и разнообразных данных, что позволяет им достигать выдающихся результатов в распознавании образов, прогнозировании трендов и автоматизации сложных процессов в режиме реального времени и постоянно меняющихся условиях. Они способны обрабатывать данные так же, как человек обрабатывает информацию, но с невероятной скоростью и точностью.

Если представить большие модели ИИ как автомобили, то исходные данные можно сравнить с сырой нефтью. Подобно тому, как автомобилям требуется топливо, ИИ-моделям необходимы огромные объемы данных для обучения и функционирования. Эти данные служат основным "топливом", позволяющим моделям развиваться, учиться и выполнять сложные задачи.

Основные источники "сырой нефти" для ИИ-компаний включают:

Открытые бесплатные источники данных в интернете: Википедия, блоги, форумы и новостные сайты предоставляют обширные массивы информации, которые ИИ может использовать для обучения.
Старые новостные медиа и издательства: исторические данные из газет и журналов помогают моделям понять контекст и эволюцию языка.
Университеты и исследовательские учреждения.
Пользователи конечных устройств: данные, собранные от пользователей, например, в социальных сетях или при использовании различных приложений, также являются важным источником информации для ИИ.

В отличие от рынка нефти, где права на добычу и использование регулируются строгими правовыми нормами, в сфере ИИ правовые нормы относительно использования данных еще не до конца сформулированы. Это приводит к многочисленным юридическим спорам и неопределенностям.

Примеры таких споров включают недавние судебные иски. Крупные музыкальные лейблы подали в суд на компании Suno и Udio, которые создают музыку с помощью ИИ, обвиняя их в нарушении авторских прав. Эти обвинения аналогичны искам, которые в декабре 2023 года "The New York Times" подала против Microsoft и OpenAI, утверждая, что материалы газеты были использованы для обучения ИИ без разрешения.

Кроме того, в июле 2023 года группа писателей обвинила ChatGPT в создании резюме их произведений на основе защищенного авторским правом контента. В Калифорнии была подана коллективная жалоба, обвиняющая OpenAI в сборе личной информации пользователей без их согласия для обучения ChatGPT.

OpenAI, в свою очередь, отвергла обвинения, заявив, что не считает данные "The New York Times" значимыми для их моделей и что они не смогли воспроизвести упомянутые в иске проблемы. Тем не менее, для OpenAI это был важный урок в правильном управлении отношениями с поставщиками данных и в определении прав и обязанностей сторон.

За последний год OpenAI активно налаживала партнерские отношения с многочисленными поставщиками данных, включая The Atlantic, Vox Media, News Corp, Reddit, Financial Times, Le Monde, Prisa Media, Axel Springer и American Journalism Project. Это сотрудничество позволяет OpenAI легитимно использовать данные этих медиа и интегрировать их технологии в свои продукты, что способствует дальнейшему развитию и улучшению ИИ-моделей.

OpenAI и другие компании в области искусственного интеллекта не только стремятся избежать судебных исков, но и активно заключают партнерские соглашения с поставщиками данных по другой важной причине — приближающемуся дефициту качественных данных для машинного обучения. Исследования, проведенные MIT и другими институтами, предсказывают, что к 2026 году рынок может столкнуться с исчерпанием доступных "качественных языковых данных".

Качественные данные стали ключевым активом для таких гигантов, как OpenAI и Google. Они необходимы для обучения ИИ-моделей, которые способны выполнять сложные задачи и достигать высоких уровней точности. Понимая это, контентные компании начали переходить к новой стратегии, связанной с пассивным заработком от лицензирования своих данных.

Традиционные медийные платформы, такие как Shutterstock, все активнее заключают сделки с компаниями, занимающимися AI, например, Meta, Alphabet, Amazon и Apple. В 2023 году доход от лицензирования контента для AI-моделей достиг 104 миллионов долларов, и прогнозируется, что к 2027 году эта цифра вырастет до 250 миллионов долларов. Reddit уже получает до 60 миллионов долларов в год от лицензирования контента для Google, в то время как Apple предлагает новостным медиа лицензионные сборы не менее 50 миллионов долларов в год. Темпы роста доходов от таких сделок впечатляют — ежегодное увеличение составляет 450%.

В последние годы контент за пределами стриминга оказался трудным для монетизации, что стало значительной проблемой для индустрии. Однако появление AI открыло новые возможности для контентных компаний, внедрив в индустрию новые идеи и созданные платформами перспективы высоких доходов.

Не весь контент подходит для современных AI-систем, и качество данных играет ключевую роль в успешном обучении моделей. Как для переработки нефти важно её качество, так и AI требует высококачественные данные для своей работы.

В спорах между OpenAI и "The New York Times" акцент ставится на этом качестве. OpenAI утверждает, что контент "The New York Times" не был существенным для их моделей, в отличие от Shutterstock, который приносит значительные доходы и активно используется. Текстовые медиа, такие как "The New York Times", зависят от актуальности и могут не подходить для долгосрочного обучения AI.

Из-за дефицита качественных данных AI-компании всё больше фокусируются на "технологиях очистки" и "универсальных приложениях". Например, приобретение OpenAI компании Rockset 25 июня позволит улучшить обработку данных в реальном времени. Rockset предоставляет инструменты для анализа и индексации данных, что расширит возможности AI-продуктов, таких как системы рекомендаций и чат-боты.

Таким образом, Rockset можно рассматривать как "отделение нефтехимии" для OpenAI, превращающее обычные данные в высококачественные, необходимые для эффективного функционирования AI-систем.

Данные с интернет-платформ, таких как Facebook и Reddit, в значительной степени формируются пользователями. Эти платформы, взимая высокие сборы с AI-компаний за доступ к данным, зачастую включают в пользовательские условия пункты, разрешающие использование данных для обучения AI-моделей. Однако многие создатели контента не осознают, как их контент используется, и не получают за это компенсацию, а также не могут защитить свои права.

В феврале этого года на конференции Meta, Марк Цукерберг подтвердил, что фотографии с Facebook и Instagram будут использоваться для обучения AI-инструментов. В то же время Tumblr, по сообщениям, уже заключил секретное соглашение с OpenAI и Midjourney о лицензировании контента, но детали этого договора не раскрыты.

На платформе EyeEm создатели недавно получили уведомление, что их фотографии будут использоваться для обучения AI-моделей, однако о компенсации не упоминается. Материнская компания EyeEm, Freepik, подтвердила, что они заключили сделки на лицензирование изображений, но детали остаются конфиденциальными.

Подобные проблемы наблюдаются и у других платформ, таких как Getty Images, Adobe, Photobucket, Flickr и Reddit. Эти платформы часто игнорируют права пользователей, продавая данные компаниям, работающим с AI, за значительные суммы. Весь процесс происходит скрыто, и создатели контента редко знают, как их контент используется и кто на этом зарабатывает.

Возможное решение этих проблем может предложить Web3. Блокчейн, благодаря своей децентрализованной и неизменяемой природе, может обеспечить защиту прав создателей. Уже в 2021 году медиа-контент был перенесён на блокчейн, и переход UGC (user-generated content - контент, созданный пользователями) на платформы Web3 только начинается. Многие платформы Web3 AI-моделей уже поощряют пользователей за вклад в обучение моделей, что может стать шагом к более справедливому распределению доходов.

Примером Web3-проекта, который поощряет пользователей за вклад в обучение AI-моделей, является Ocean Protocol.

Ocean Protocol — это децентрализованная платформа для обмена данными, где пользователи могут загружать свои данные в Ocean Marketplace и получать токены за их использование AI-компаниями. Пользователи этой платформы загружают данные и устанавливают условия использования, получая за это токены, которые потом можно обменять на криптовалюту. Ocean Protocol обеспечивает справедливое вознаграждение за данные и прозрачность в их использовании.

С экспоненциальным развитием AI-моделей возрастает необходимость определения прав на данные. Создателям контента стоит задуматься: почему их работы продаются AI-компаниям за копейки без их согласия и получения дохода? Платформы медиа должны найти баланс между интересами создателей, платформ и AI-компаний для обеспечения справедливого распределения данных и доходов.

Надеюсь статья показалась вам увлекательной и полезной! Впереди еще много нового: про технологии, изменившие мир и бизнес. Если не хотите их пропустить – приглашаю вас в свой канал “Охота за технологиями”. Желаю всем добра и до скорой встречи!
Геннадий Гужов - автор канала

2 комментария

Ренат Ш

29 июля

низкое качество данных: вот вечная проблема

Ответить

Вячеслав Ревенко

сейчас для них большая проблема это куча исков по авторскому праву и то что они используют авторский контент для обучения. В данный момент они ищут альтернативы и предполагают обучать нейронки на своем же контенте а это может привести к серьезному ухудшению качества

Как ИИ-компании переживают “нефтяной кризис”? История о том, как контентные платформы зарабатывают, не делая почти ничего.

Первые судебные споры по использованию данных для ИИ

Выгодное партнерство

Как Open AI решил проблему с низким качеством данных

Проблема прав создателей на контент: фантазия или реальность?