Гарвард и Google дадут доступ к миллиону книг для обучения нейросетей

Это отличная новость для развития нейросетей, и достаточно неожиданная. Расскажу, почему это так.

** Еще больше интересного в моем канале продуктовые штучки**

Почему это важно?

Архивы и права интеллектуальной собственности этих новостных организаций чрезвычайно ценны — возможно, имеют решающее значение — для обучения моделей ИИ, таких как ChatGPT, в целях предоставления пользователям точной информации.

Так, сенсационные данные о низком качестве ответов поисковика в ChatGPT как раз были вызваны тем, что данных для ответов просто не было в пространстве поиска.

Вот почему Гарвардский университет планирует дать доступ к огромной библиотеке, которая включает почти 1 миллион книг, являющихся общественным достоянием, и охватывающих различные жанры, языки и авторов, включая Диккенса, Данте и Шекспира, которые больше не защищены авторским правом из-за своего возраста.

И все же почему это новость?

Многие медиа компании повально закрывали доступ ботам ИИ для доступа к своему контент. Так, на пике в конце 2023 года этот показатель составлял чуть более трети веб-сайтов.

На середениу 2023 года как минимум 26% из топ-100 сайтов заблокировали доступ ChatGPT к своему ресурсу.

Отказали в доступе такие сайты как pinterest.com, indeed.com

Есть даже целый сайт, который ведет подсчет ресурсов, отказавших ИИ в доступе.

Сайт с подсчетом ресурсов, отказавших ботам ИИ в доступе к данным. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Foriginality.ai%2Fai-bot-blocking&postId=1705899" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Сайт с подсчетом ресурсов, отказавших ботам ИИ в доступе к данным. Источник

По данным на август 2024 года, более 14 крупнейших новостных изданий из топ-1000 закрыли доступ к своим материалам для ИИ-поисковика SearchGPT компании OpenAI.

Среди заблокировавших доступ к своим данным ресурсов - Disney, Bloomberg, The Washington Post,The New York Times, Wired, The New Yorker, Vogue, Vanity Fair, GQ, CNN, Reuters и Австралийская радиовещательная корпорация. Издательства, такие как Condé Nast, Hearst и Vox Media, также приняли защитные меры.

Достается не только боту OpenAI, но и других компаний: Anthropic (нейросеть Claude), Google. Чуть ли не каждую неделю приходят новости о скандалах с авторскими правами (например, канадские медиа или игровая индустрия против Sora).

После того как несколько медиакомпаний заключили соглашения с OpenAI на обучение ИИ, по данным Wired, количество сайтов, блокирующих GPTBot, резко сократилось.

Так, августе этого года материнская компания WIRED, Condé Nast, заключила сделку. На данный момент OpenAI заключила сделки с 12 издателями.

У самых известных новостных агентств уровень блокировки по-прежнему превышает 50%, но он снизился с почти в 90% в начале этого года (источник).

Пожалуйста, поддержите меня, поставьте лайк!

33
1 комментарий

Странно, что вообще кто-то отказывает