Ученые предложили решения, которые позволят избежать негативных последствий от развития Искусственного Интеллекта

Это перевод статьи из американского журнала WIRED от 20 января. Он поможет креаторам, которые боятся потерять работу, предпринимателям, которые создают продукты с ИИ, и юристам сформировать адекватные ожидания о том, как будет устроен новый мир, где ИИ применяется повсеместно.

Ученые предложили решения, которые позволят избежать негативных последствий от развития Искусственного Интеллекта

Авторы статьи - Ник Винсент и Хэнлин Ли — доктора философских наук, выпускники Северо-Западного университета (частный исследовательский университет, расположенный в северном пригороде Чикаго. Входит в список 20 лучших университетов мира и в 10 лучших университетов США).

Поскольку все в основном только ловят хайп на этой теме - в рунете практически не встречается полезных материалов, конструктивно отвечающих на вопрос "что же делать?" и "как мы с этим будем жить?". Именно поэтому, прочитав эту статью на wired.com я посчитал своим долгом перевести её для аудитории VC.RU. И нет, внизу нет рекламы и ссылок на телеграмм-канал))
В начале авторы статьи немного нагоняют жути, все-таки это журнал для широкой аудитории, однако далее приведены реально действенные методы регулирования информационной сферы в новых реалиях, а также поднимаются важные потенциальные проблемы в продуктах, которые на этих технологиях создаются.

Это было предисловие от автора и переводчика материала.

Ниже - сам перевод статьи, примечания переводчика помечены звездочкой. Оригинальные ссылки авторов сохранены. Они могут быть особенно полезны, если вы глубоко изучаете тему ИИ.

ChatGPT украл вашу работу. И что вы с этим будете делать?

Креаторы должны давить на судебную систему, регуляторов и рынок, пока не стало слишком поздно.

Если вы когда-либо загружали в интернет фотографии или творчество, писали отзывы, ставили лайки, отвечали на вопросы на форумах, создавали программные open-source продукты или делали вообще что-угодно онлайн - вы делали бесплатную работу для технологических компаний, потому что скачивая весь этот контент их системы искусственного интеллекта (*далее - ИИ) получают актуальную информацию о мире.

Технологические компании маскируют вклад пользователей в свои продукты в Условиях Использования (которые все, конечно, читают, хах*) под терминами типа "тренировочные данные", "самообучение", "информационный след".

Фактически большинство инноваций в сфере ИИ за последние годы - следствие бесплатного и возрастающего использования контента пользователей. Это относится к поисковикам вроде Google, социальным сетям, как Instagram, стартапам в области ИИ, как OpenAI и многим другим IT-компаниям.

Эта эксплуататорская тенденция особенно разрушительна, если говорить о новой волне программ генеративного ИИ, как Dall-E и ChatGPT. Без вашего контента ChatGPT и тому подобных продуктов просто не существовало бы. Многие исследователи ИИ считают, что ваш контент на самом деле гораздо важнее работы инженеров. Теперь ИИ продукты, которые бесплатно эксплуатируют ваш труд, угрожают отобрать у вас работу. Это тоже самое, как если бы система ИИ пришла на ваш завод, и украла станки.

Однако вышеописанное также означает,что пользователи, которые создают контент, обладают большой властью.

Дискуссии об использовании сложных технологий ИИ обычно исходят от беспомощности и позиции, что компании, владеющие продуктами с ИИ будут делать то, что им захочется и общество мало что сможет сделать, чтобы повлиять на развитие данных технологий. Мы, исследователи ИИ, и наше исследование говорит о том, что люди обладают огромным "информационным рычагом влияния", который может быть использован для создания экосистемы ИИ, которая будет одновременно создавать потрясающие технологии и справедливо делиться выгодами с теми, кто способствует их развитию.

Информационный рычаг влияния может быть использован как минимум в четырех направлениях:

  1. Прямое действие. К примеру люди могут объединяться с целью скрыть, запутать или "испортить" данные.
  2. Регуляторное действие. Например, политика защиты данных и юридическое признание “информационных коалиций”.
  3. Юридическое действие. Например, создание новых режимов лицензирования данных.
  4. Рыночное действие. Например, требование, чтобы большие языковые модели тренировались только на данных, предоставленных согласными с этим авторами.

Начнем с прямого действия, которое является отличным вариантом, так как может быть предпринято мгновенно.

Поскольку генеративные системы ИИ полагаются на парсинг интернета - владельцы сайтов могут значительно усложнить процесс сбора данных в настройках файла robots.txt (файл сайта, в котором регулируется доступ ботов к сайтам).

* Конечно, эти ограничения можно обойти, и именно для этого существует капча. К слову - эта надоедливая капча с девятью картинками, где вам, к примеру, нужно выбрать фотографии с автобусами - целый проект, направленный на обучение ИИ распознавать объекты на дороге.

Большие сайты типа Wikipedia, StackOverflow, и Reddit - особенно важны для систем генеративного ИИ, и они могут закрыть этим системам доступ через блокировку IP адресов или API-доступа. По словам Илона Маска, именно это было недавно сделано в Twitter. Производителям контента следует также пользоваться механизмами защиты, которые все чаще предоставляются самими продуктами с ИИ. К примеру, программисты в GitHub могут отказаться от предоставления данных для проекта BigCode через простую форму.

Кроме того, попросту не молчать, когда контент используется без вашего согласия, может быть в какой-то степени эффективно. К примеру, крупный игрок с генеративным ИИ Stability AI согласился выполнить запросы на отзыв разрешения на использование данных, собранные через haveibeentrained.com после шумихи в социальных сетях. Участвуя в публичных активностях, как в случае массового протеста художников против ИИ, возможно, удастся заставить компании прекратить коммерческую деятельность, которую значительная часть общества воспринимает как воровство.

Медиа-компании и проекты, чья работа достаточно важна для больших языковых моделей (LLM), могут также учитывать подобные настроения и запретить системам генеративного ИИ доступ к контенту, потому что эти системы постоянно наращивают свою ценность бесплатно (в том числе благодаря именно этой статье). Например, Эзра Кляйн (журналист New York Times*) упомянул в недавнем подкасте, что ChatGPT отлично подражает ему, вероятно, потому, что скачал множество его статей, не спросив его или его работодателя.

Важно, что время также на стороне авторов: по мере того, как в мире происходят новые события, меняется мода, факты и открываются новые рестораны, необходимы новые потоки данных для поддержки современных систем ИИ. Без потока актуальных данных эти системы, скорее всего, потеряют ценность для большинства сервисов, которые их используют. Отказываясь предоставлять новые данные безвозмездно, создатели контента также могут оказать давление на технологические компании, заставляя их платить за доступ к ним.

Что касается регулирования, законодателям необходимо как можно быстрее принять меры для защиты того, что может оказаться крупнейшей кражей труда людей в истории.

Один из лучших способов сделать это - разъяснить, что “добросовестное использование” в соответствии с законом об авторском праве не позволяет обучать ИИ без согласия владельца контента, по крайней мере, в коммерческих целях. Законодателям по всему миру также следует поработать над законами о “борьбе с отмыванием данных”, которые четко разъясняют, что системы, обученные на данных без согласия авторов, должны быть переобучены с законным использованием данных в адекватные сроки. Подобные меры могут основываться на существующих законодательных структурах в таких регионах, как Европа и США, а также на работе по регулированию, проводимой для обеспечения того, чтобы новостные компании получали долю доходов, которые они генерируют для социальных сетей.

Также набирает обороты принятие законов о “дивидендах от данных”, которые позволили бы перераспределять прибыль, генерируемую IT-компаниями. Они также могут помочь, если удастся избежать некоторых "ловушек".

Кроме того, политики могли бы помочь креаторам и поставщикам данных объединиться для защиты своих прав. В частности, поддержка таких инициатив, как информационные кооперативы — организации, которые облегчают поставщикам данных продвижение своих интересов — могла бы способствовать крупномасштабным информационным забастовкам среди авторов контента и усадить фирмы, использующие ИИ, за стол переговоров.

Суды также дают людям возможность вернуть контроль над своим контентом.

Пока они работают над толкованием закона об авторском праве, есть много других вариантов. LinkedIn удалось помешать тем, кто копирует данные, опубликованные в соц сети, с помощью Условий Использования и договорного права. Трудовое законодательство также может предоставить возможность расширить возможности лиц, создающих контент. Обращаясь к истории, зависимость некоторых компаний от "работы волонтеров" (*авторы приводят в пример процесс против сети ресторанов, которая предлагала людям работать за еду) позволила поднять важные вопросы о том, нарушают ли эти компании Закон о справедливых трудовых стандартах (*англ. - Fair Labor Standards Act), и эти судебные процессы могут служить калькой для информационной сферы. В прошлом некоторые волонтеры даже добились законных компенсаций от компаний, получавших выгоду от их работы.

Здесь также важную роль играет рынок.

Если достаточное количество правительств, организаций и частных лиц создадут спрос на языковые системы ИИ, которые использовали только данные с разрешения авторов (возможно, оплатив их работу), IT-компаниям придется пойти навстречу. Этого можно добиться успешными судебными процессами против компаний, которые используют генеративный ИИ в своих продуктах. Если приложения и сервисы, созданные на базе систем ИИ (*типа Open AI), столкнутся с судебными исками, спрос на системы, которые не играют в законодательный Дикий Запад, возрастет.

Наше исследование (ссылка 1, ссылка 2) и исследование наших коллег также показывает нечто удивительное: многие из вышеперечисленных действий на самом деле помогут компаниям, развивающим продукты с ИИ. Без экосистемы с нормальным регулированием в сфере контента, сам контент, на который опираются технологии ИИ, просто исчезнет. Если никто не заходит на Reddit, потому что все ответы можно получить от ChatGPT, как тогда ChatGPT будет обучаться на контенте, генерируемом пользователями Reddit? Это создаст значительные проблемы для технологических компаний, которые все еще можно заранее решить, используя перечисленные в статье методы.

Мнение и комментарии автора перевода

Конечно, рассуждая о юридическом и законодательном регулировании правил применения ИИ, авторы полагаются на государственную систему западных стран. Есть множество государств, которым мягко говоря не до этого. Большим вопросом остается, как будут вести себя транснациональные корпорации, которые без сомнения будут получать все сливки от технологий ИИ. Допускаю, что им будет слишком просто злоупотреблять несовершенством некоторых государственных систем какое-то время. Наверное, чтобы качественно зарегулировать эту сферу - вопрос нужно выносить на международный уровень, и создавать нечно на подобии Морского Права с едиными принципами и правилами применения ИИ. Если, конечно, в текущих реалиях это еще возможно.

А как специалист в области развития IT-продуктов, могу сказать, что предпринимателям, создающим сервисы и приложения на базе ИИ, стоит учитывать будущие риски попадания "палок в колеса" от владельцев данных.

Ставьте статье лайки, пишите комментарии, это поможет действительно полезной информации дойти до людей, тем или иным образом зависящим от развития ИИ.

22
4 комментария

Обидно, что авторы не раскрыли детальнее тему "порчи" данных. Тут фантазия далеко зайти может. Предвижу новости в 2025 г: "Копирайтеры, потерявшие работу из-за ИИ, массово объединяются в группы информационного сопротивления и публикуют тысячи материалов, противоречащих общепринятым фактам, чтобы отомстить технологическим компаниям"

Угу начнётся война с IT гигантами которые начнут бомбардировки плашками о непроверенной информации ))))

1

Комментарий недоступен

Ну это скорее не фантазии предшественника, а "рерайт" одной и той же информации на разный манер. Интересно, как вообще в языковых системах учат ИИ в куче инфомусора отличать новое от старого и ложное от правдивого...