Почему алгоритмы не отличают хорошее от популярного, чем это опасно и как люди прививают системам свои стереотипы

Отрывок новой книги Мередит Бруссард «Искусственный интеллект. Пределы возможного», которую выпускает издательство «Альпина нон-фикшн».

Почему алгоритмы не отличают хорошее от популярного, чем это опасно и как люди прививают системам свои стереотипы

Популярное не значит хорошее

Как сделать хорошее селфи? В 2015 году одно из американских СМИ раскрыло результаты эксперимента, призванного ответить на этот вопрос. Для тех, кто знаком с основами фотографии, итоги оказались предсказуемыми: удостовериться, что изображение сфокусировано, лоб не обрезан и так далее.

Что интересно и что не вызвало вопросов у исследователя Андрея Карпати, тогда аспиранта Стэнфорда, а сегодня главы отдела искусственного интеллекта в Tesla, — почти на всех «хороших» фотографиях были молодые белокожие женщины, несмотря на тот факт, что в изначальном массиве фотографий были снимки и пожилых женщин, мужчин, людей с другим цветом кожи.

В качестве системы оценки качества хорошей фотографии Карпати опирался на количество лайков, поставленных каждой фотографии. Подобную ошибку весьма часто допускают исследователи в области компьютерной технологии, которые не прибегают к критическому осмыслению социальных ценностей, человеческого поведения, что в итоге приводит к появлению подобных результатов.

Карпати посчитал, что, раз изображение популярно, значит, оно хорошее. Выбор в пользу популярности привёл к тому, что итоговая модель вышла стереотипной: в ней отдавалось предпочтение фотографиям молодых, белокожих цисгендерных женщин, вписывающихся в ограниченное гетеронормативное определение привлекательности.

Представим, что вы взрослый чернокожий мужчина, и запустим ваше селфи для анализа в модель Карпати. Ваша фотография не будет маркирована как «хорошая» ни при каких условиях. Потому что вы не белый, вы не цисгендерная женщина и вы не молоды; следовательно, вы не подпадаете под критерии «хорошего».

Социальный вывод для читателя заключается в том, что, если вы не выглядите определенным образом, ваше селфи принципиально не может быть «хорошим». Это не правда. Кроме того, ни один разумный человек никогда не скажет подобные вещи другому.

Такое смешение популярного и хорошего проявляется во многих цифровых системах принятия решений, использующих субъективную оценку качества. То есть человек может увидеть разницу между концептами популярного и хорошего.

Человек также способен понять, что нечто популярно, но не хорошо (как рамен-бургеры или расизм) или хорошо, но непопулярно (как налоги на доход и ограничения скорости), и оценить это социально релевантным образом (но, например, дети или физические упражнения одновременно популярны и хороши).

Тем временем машина способна идентифицировать только популярность, опираясь на заранее установленные критерии, и сама по себе не способна распознать качество этой популярности.

Здесь мы видим фундаментальную проблему: алгоритмы разрабатываются людьми и эти люди встраивают свои бессознательные стереотипы в алгоритмы. Едва ли так происходит специально — но это не значит, что на такое положение дел можно не обращать внимания.

Нам следует быть бдительными и критически настроенными относительно того, что, как нам известно, может пойти не так. Если полагать наличие дискриминации по умолчанию, то можно разработать системы, работающие в направлении равенства.

Одной из ключевых идей интернета является возможность ранжировать объекты.

Нынешнее общество сходит с ума по измерениям; правда, мне не совсем ясно, появилась ли эта мания благодаря неистовому стремлению математиков к ранжированию либо это стремление является банальной реакцией на социальный запрос. В любом случае подсчёты нынче правят бал.

У нас есть системы оценки колледжей, спортивных команд, команд на форумах разработчиков софта. Студенты стараются заработать более высокую позицию в списке класса. Школы ранжированы, сотрудники ранжированы. Все мечтают занять верхнюю строчку, и никто не хочет оказаться в самом низу: кому вздумается брать на работу (или выбирать) кого-то с самых низких позиций?

В образовании, области, известной мне наилучшим образом, процветает логическое заблуждение.

Если мы посмотрим на результаты тестов 1000 студентов, то увидим, что они вписываются в гауссову кривую. Половина студентов будет находиться выше среднего уровня, половина — ниже, также будет небольшое количество тех, кто занял самые высокие и самые низкие позиции.

Это нормально — однако школьные округа и чиновники считают, что их цель заключается в доведении всех учащихся до «релевантного уровня компетентности».

Это невозможно до тех пор, пока средний уровень компетентности не станет равным нулю. Школьные округа считают, что нужно, чтобы все учащиеся были успешными, однако это вовсе не означает, что стремиться к недостижимому идеалу — действительно хорошо.

Идея о том, что популярное важнее хорошего, внедрена в само «ДНК» интернет-поиска.

Задумайтесь над его происхождением: в 1990 году двое выпускников факультета вычислительной техники размышляли над тем, что ещё можно почитать по своей специальности. Тогда возраст их специальности составлял всего лишь 50 лет (в отличие от сотен лет развития близкой им математики или, например, истории) и было сложно найти литературу вне программы курсов.

Они прочли какое-то математическое исследование, в котором анализировались цитаты с целью получить индекс цитируемости, и решили попробовать применить описанный алгоритм к веб-страницам (тогда было немного веб-страниц). Проблема заключалась в том, чтобы идентифицировать «хорошие» веб-страницы, то есть те, которые стоят того, чтобы быть прочитанными.

Сперва они решили повторить логику отбора академических цитат: в области компьютерных наук самые-цитируемые-статьи всегда самые важные. Значит, хорошая статья должна быть популярной по определению.

Таким образом, они создали поисковик, который подсчитывал количество ссылок, указывавших на эту страницу. Затем подсчитывался ранг страницы (PageRank), основанный на количестве указывавших на неё ссылок и ссылок, находящихся внутри неё.

Они посчитали, что пользователи будут поступать точно как научные работники: каждый из них будет создавать страницу, которая бы включала ссылки, ведущие на важные, по мнению конкретного пользователя, страницы. Таким образом, популярной страницей становилась та, на которую указывало много ссылок.

PageRank был назван в честь одного из выпускников, Ларри Пейджа. Он и его партнёр Сергей Брин решили заработать на своём изобретении и создали Google, одну из самых влиятельных компаний в мире.

Долгое время PageRank прекрасно справлялся. Популярные страницы действительно были хорошими — в том числе потому, что в сети тогда было настолько мало контента, что этот порог был не очень высоким.

Тем временем всё больше людей оказывались онлайн, количество контента росло, и Google стал зарабатывать деньги за счёт рекламы на веб-страницах. Модель поискового ранжирования позаимствовали у научных издательств, а рекламную модель — у рекламных изданий.

По мере того как пользователи выясняли, как можно перехитрить PageRank, чтобы повысить позицию своих страниц в поисковой выдаче, популярность стала чем-то вроде валюты в сети. Разработчикам Google пришлось добавлять новые факторы поиска так, чтобы спамерам не удавалось обходить систему.

Постоянно подправляя алгоритм, они в итоге добавили несколько функций. Одной из них стало определение географического положения, помогавшее автоматически заполнять адрес.

По сути, это поисковое автозаполнение, основанное на реалиях окружающего мира. И, если вы вводили «ga», система бы заменила это на «GA», если в вашей округе многие искали что-то связанное с Джорджией (или, может, футбольную команду Университета Джорджии (UGA)), или предложила бы «Lady Gaga», если пользователи рядом с вами искали что-то связанное с музыкой.

Сегодня в поиск внедрены более двух сотен факторов, а PageRank был дополнен множеством дополнительных функций, в том числе машинным обучением. Всё это отлично работает до тех пор, пока работает.

История о том, как оформители создавали макет первой полосы газеты, служит хорошим примером того, что машина на самом деле не может переводить. Текст тщательно подбирается. Например, у разных мест на странице есть названия вроде верхней полосы и нижней полосы — это из наиболее очевидного.

В газетах The Wall Street Journal всегда есть какое-то заметное место, которое называется A-hed и добавляет лёгкость подачи материала. Давний сотрудник газеты Барри Ньюман писал:

A-hed долгое время было просто одним из названий заголовков. Однако вскоре стал обозначать название такой истории, которая бы с лёгкостью сходила со страницы. A-hed — заголовок, который не кричит. Он хихикает.

Как было замечено, великие редакторы создают сосуды, в которые затем авторы помещают свою работу. Именно этим Барни Килгор стал заниматься начиная с 1941 года. Главному редактору The Wall Street Journal было известно, что в мир бизнеса следует добавить немного радости.

Помещая нечто весёлое на самое видное место, где оно было окружено новостями о повседневных заботах, Килгор формулировал определённый посыл: тот, кто относится к жизни настолько серьёзно, чтобы читать The Wall Street Journal, должен также быть достаточно мудрым, чтобы отступить на шаг и посмотреть на нелепости жизни…

При правильном исполнении A-hed перестаёт быть просто элементом новостей. Благодаря нашим личным особенностям, любопытству и страстям возникают новые идеи. A-hed — это не юмористические колонки. Они не навязывают мнения. Мы не сочиняем. Иногда лёгкий, остроумный намёк способен затмить все шутки. Двое репортёров, рассказывающих одну и ту же историю, всегда преподнесут её в собственной причудливой манере.

Этот подход радикально отличается от банального скроллинга новостей в ленте Facebook, ведь редактор фактически собирает коллаж: что-то посветлее, что-то потемнее и несколько полутонов формируют «баланс» истории.

Первая полоса — это тщательно подобранные элементы. В The New York Times есть целая команда, составляющая цифровую первую полосу — день за днем.

Лишь некоторые СМИ могут себе позволить держать такой персонал, поэтому в менее масштабных издательствах первая полоса формируется раз в день либо же автоматически пополняется в зависимости от её печатной версии. Однако проектирование страниц редактором повышает их ценность для читателя. Это хорошо, но непопулярно: трафик на первых страницах издательств начал резко падать с приходом социальных сетей.

Стало модно критиковать журналистов и журналистику в целом за игнорирование общественной повестки. Я бы возразила, что эти обвинения — не по адресу и не слишком полезны для общества. И тем не менее. В США переход от печатной к цифровой журналистике сильно повлиял на качество итоговой продукции.

Согласно Статистическому управлению Министерства труда, в 2015 году средняя годовая зарплата в областях интернет-паблишинга и на платформах поиска составляла примерно $197 549. В то время как средняя годовая зарплата в издательствах — $48 403, в радиовещательных компаниях — $56 332. Ньюсрумы пустеют потому, что талантливые писатели и журналисты ищут более высокооплачиваемую работу, немногие остаются, чтобы «держать лис подальше от курятника».

Это — проблема, поскольку мошенничество внедрено и в «ДНК» современных компьютерных технологий и технокультуры.

В 2002 году в рамках национального проекта редизайна 25-центовой монеты власти Иллинойса решили дать гражданам возможность проголосовать за изображение, которое они хотели бы видеть.

У моей подруги программиста был явный фаворит — дизайн со «страной Линкольна» (жители Иллинойса называю так свой штат, поскольку именно оттуда началась политическая карьера Линкольна — Прим. ред.) — изображение молодого Авраама Линкольна, держащего книгу, фоном ему служил контур границ штата Иллинойс. Слева от Линкольна был силуэт Чикаго, а справа — абрис фермы c амбаром и силосной башней.

Подруге казалось, что именно этот дизайн достоин представлять её штат перед всей страной. Поэтому она решила немного схитрить, чтобы выровнять шансы в пользу Честного Эйба (одно из уважительных прозвищ Линкольна — Прим. ред.).

Власти Иллинойса задумали проводить онлайн-голосование, надеясь, что в результате больше людей примут участие и, значит, потенциально у властей будет возможность получить больше поддержки в будущем.

Взглянув на веб-страницу с голосованием, моя подруга поняла, что может написать простенькую программу, которая постоянно голосовала бы за «землю Линкольна». Ей потребовалось несколько минут, чтобы написать её. Она запускала её снова и снова, выравнивая счетчик голосования в пользу своего фаворита.

В итоге подруга победила с большим отрывом. А в 2003 году именно этот дизайн был запущен в производство по всей стране.

В 2002 году, когда моя подруга рассказала мне об этом, история показалась забавной. Я до сих пор вспоминаю её, когда роюсь в поисках разменной монеты в кармане и нахожу иллинойсский четвертной.

Поначалу я соглашалась с ней в том, что голосование в рамках штата за дизайн монеты было безобидным розыгрышем, — но с течением времени поняла, насколько это было несправедливо с точки зрения властей.

Администрация Иллинойса полагала, что получает объективный гражданский отклик. Но то, что они увидели в результате, — фокусы 20-летней девушки, которой стало скучно на работе. Ведь для властей штата это выглядело так, будто множество людей решило принять участие в гражданском голосовании. И, вероятно, они были счастливы участию тысяч людей в голосовании за дизайн монеты.

Кроме того, десятки решений следовали за этим голосованием — о карьерах, повышениях, наконец, непосредственно в Министерстве финансов США.

Такого рода мошенничества случаются каждый час, ежедневно. Интернет, конечно, невероятное изобретение, и он вмещает в себя и неконтролируемое мошенничество, и целую сеть лжи, которая распространяется настолько быстро, что правила и законы попросту не успевают за ней.

После президентских выборов 2016 году наблюдался повышенный интерес к фейковым новостям. Однако никого из мира технологий не удивило то, что сфабрикованные материалы вообще существуют. Их скорее удивило то, что граждане отнеслись к этому настолько серьезно.

«С каких это пор люди стали верить каждому слову в интернете?» — спросил меня наш программист. Он совершенно искренне не понимал, почему гражданам не известно, как веб-страницы создаются и публикуются в сети. А поскольку он этого не понимал, то и не мог принять тот факт, что некоторые воспринимают чтение чего-либо в интернете так же, как они воспринимают чтение материалов серьёзного издательства.

Это не одно и то же, но настолько похоже, что действительно легко перепутать проверенную информацию с непроверенной — если не обращать внимания на детали.

Некоторые — обращают.

Эта «добровольная слепота» образовалась по вине представителей техноиндустрии, и именно поэтому сегодня остро стоит необходимость в специальных технологиях и расследовательской журналистике, способной верифицировать алгоритмы и их создателей. «Лисы дежурили у курятника» с самого начала эры интернета.

В декабре 2016 году Ассоциация вычислительной техники — единственная профессиональная ассоциация исследователей в области вычислительной техники — объявила о введении поправок в свой этический кодекс.

Это произошло впервые с 1992 года, и с тех пор возникало достаточно этических сложностей, однако представители ассоциации не были готовы мириться с той ролью, которую играли компьютеры в социальных вопросах.

По счастью, новый этический кодекс рекомендует членам ассоциации обращать пристальное внимание на различные дискриминации, внедрённые в «ДНК» вычислительных систем. Этого удалось добиться благодаря усилиям дата-журналистов и исследователей, занимающихся алгоритмической ответственностью.

Рассмотрим историю 18-летней Бриши Борден. Они с подругой дурачились в пригороде Флориды и заметили детские велосипед Huff y и скутер Razor, оба не на замке. Ребята подобрали их и попробовали покататься. Сосед вызвал полицию.

«Борден с подругой арестовали и обвинили в воровстве и мелкой краже предметов на сумму $80», — описала события Джулия Ангвин из ProPublica.

Затем Ангвин сравнила тот случай с другим похожим нарушением, когда Вернон Пратер, 41 год, своровал из флоридского магазина Home Depot инструменты на $86,35.

«Ему уже выносили приговор в попытке и затем осуществлении вооруженного ограбления — за что он пять лет отбывал тюремное заключение — в дополнение к ещё одному вооружённому ограблению. У Борден была судимость, но за мелкое преступление в несовершеннолетнем возрасте», — пишет Ангвин.

У каждого из этих людей был собственный прогностический рейтинг ареста — знакомо по фильмам, верно? У Борден он был высоким, поскольку она чернокожая. А у Пратера — низким, поскольку он белый. COMPAS, алгоритм анализа риска, попытался спрогнозировать, какова вероятность рецидивного поведения и повторного совершения правонарушений у задержанных.

Northpointe, создатель COMPAS, — одна из многих компаний, стремящихся улучшить практики поддержания общественного порядка посредством количественных методов.

Это не какое-то злое намерение; в большинстве из этих компаний работают благонамеренные криминалисты, верящие в то, что они действуют в рамках научных представлений о преступном поведении и подкрепляют свою работу данными. Разработчики и криминалисты системы COMPAS действительно верили, что, внедряя математическую формулу в процесс оценки вероятности совершения повторного преступления, они делают благое дело.

«На фоне только лишь субъективных суждений объективные и стандартизированные инструменты являются наиболее эффективными методами определения мер, которые следует применять к каждому конкретному заключённому» — читаем в справке к системе COMPAS от 2009 года из Калифорнийского отделения реабилитации и коррекции.

Проблема заключается в том, что математика не работает. «У чернокожих подсудимых по-прежнему было 77% риска совершения жестокого преступления и 45% риска совершения любого другого преступления», — продолжает Ангвин.

ProPublica также опубликовала данные, использованные для анализа. Что хорошо, поскольку этот акт способствовал прозрачности системы правосудия; другие люди могли скачать их, поработать с ними и самостоятельно верифицировать проделанную издательством работу. А сама история спровоцировала бурю внутри сообщества профессионалов ИИ и машинного обучения. Последовал шквал обсуждений — в вежливой академическое форме, то есть люди писали много докладов и публиковали их онлайн.

Один из наиболее важных докладов вышел под авторством Джона Клейнберга, профессора теории вычислительных машин Корнеллского университета, Маниша Рагхавана, выпускника Корнелла, и Сендхилла Муллэнатана, профессора экономики из Гарварда.

Авторы, воспользовавшись математическим аппаратом, доказали, что система COMPAS не может одинаково справедливо оценивать чернокожих и белых. Ангвин пишет:

Они выяснили, что прогностический рейтинг риска может быть либо одинаково верен, либо одинаково неверен по отношению ко всем расам — но не к обеим. Разница заключалась в частоте новых обвинительных приговоров по отношению к чёрным и белым. «Если у вас два типа населения с изначально разными рейтингами, — сказал Клейнберг, — невозможно равнозначно удовлетворить оба определения справедливости».

Короче, алгоритмы не работают объективно, поскольку люди внедрили в них свои стереотипы. Техношовинизм заставляет людей думать, что математические формулы, лежащие в основе программного кода, каким-то образом более справедливы в решении социальных проблем — но это не так.

Данные системы основаны на анкете из 137 пунктов, которая заполняется во время теста. Результаты фиксируются в линейном уравнении — вроде тех, что вы решали в школе.

Затем идентифицируется семь криминогенных потребностей или факторов риска. Среди них «образовательно-профессионально-финансовые дефициты и навыки достижения результата», «антисоциальные или криминальные контакты» и «семейно-брачнодисфункциональные отношения».

Все эти характеристики — следствие бедности. А это уже что-то совершенно бредовое.

А тот факт, что в компании Northpointe никто не задумывался о том, что в анкете или результатах есть какие-либо предрассудки, напрямую связан с техношовинистским взглядом на мир. Те, кто верит, что математика и вычислительные мощности «объективны» или «честнее», вероятнее всего, убеждены, что неравенство и расизм можно буквально стереть одним кликом.

1010
6 комментариев

А что есть «хорошее» вообще? Если сам человек не может это сформулировать. 

4

А люди легко отличают хорошее от популярного?

3

Алгоритмы существуют не сами по себе. Мир предвзят и необьективен. И что такое хорошо? Что хорошо одному то безразлично или плохо другому. Нет объективного добра и объективного зла. Стрелять в других людей плохо, но на войне почему то это хорошо. Все зависит от ситуации. А машинное обучение и статистика просто указывают на это, их не обмануть декларациями и софистикой.

3

Вот вполне прагматичный вариант. Агрегируем отзывы о кинофильмах. Посетитель выбирает отзывы людей со схожими вкусами. Потом читает рекомендации о новом фильме от тех, у кого похожие предпочтения. Получает плюс минус объективную оценку. Технически не сложно. Практически полезно. Как-то так.

Комментарий недоступен