Заблуждение о данных

The Newyorker размышляет, как так получилось, что весь мир казался очарован технократическими идеями 30-х годов об оцифровке всех знаний и построении предсказаний по любому поводу. Издание читает новую работу двух профессоров Колумбийского университета Chris Wiggins и Matthew L. Jones под названием «Как появились данные: история от эпохи разума до эпохи алгоритма». Профессоры попытались ответить на вопрос: почему дата сайенс или наука о данных стала главной дисциплиной и пытается менять "под себя" все остальные дисциплины и отрасли науки. Профессоры погрузились в 30-е годы, когда идеи технократии были популярными даже рассматривались альтернативой капитализму и либеральной демократии. Технократы предлагали отменить все существующие институты, включая банки и правительство, и передать решение всех социальных задач инженерам. Технократы были глубоко убеждены, что всем людям понравится жить в мире, управляемом логикой и цифрами. Движение технократов потеряло свою популярность в 40-х, но идеи остались и реализовались сегодня самым причудливым образом.

Профессоры напоминают, что сбор больших статистических данных начался сразу после Второй мировой войны, когда государствам нужно было принять глобальные решения быстро и на разумном основании. Службы разведки – первые, кто учился видеть паттерны и отклонения в массивах данных. Разведка пыталась ответить на вопрос: Что противник сделает в ближайшем будущем? На это вопрос пытается ответить Netflix, предлагая нам новый фильм, и Гугл, пытаясь угадать, что мы хотим найти. Идея прогнозировать на основе найденных в массивах данных паттернов была перенесена с точных наук на социальные науки и бизнес. Академики задают вопрос, а точно ли история как наука может что-то прогнозировать на основе массива событий? История это не про прогноз, а про нечто другое. И действительно истину можно найти только в больших массивах данных по паттернам?

Chris Wiggins и Matthew L. Jones задумываются, а правильно ли пытаться найти ответы на все вопросы только путем на анализа массива данных. Другие способы, например, анализ простых фактов, размышления об истории, этике, философии, неужели не нужны и не ценны? Chris Wiggins и Matthew L. Jones вспоминают запись Сергея Брина в 1997 году о поиске паттернов в массиве данных. Сергей Брин занимался анализом данных страховых компаний. Он предположил, что дискриминация вполне естественное следствие использования больших данных. Страховые компании назначают тариф клиенту по таким признакам, как пол, возраст и тип автомобиля. Если бы закон им разрешал, они бы использовали и другие данные: религию, расу, инвалидность и другие параметры, которые, по их мнению, влияют на вероятность возникновения аварии. Гугл сделал своим слоганом фразу «Don’t be evil». Профессоры призывают не скатываться в крайности и не пытаться решить все проблемы в мире анализом данных, как мечтали технократы в 30х гг. Иначе у зла появиться шанс проявиться.

Мы загрузили всю известную информацию в сеть и обучили машины. А что, если у алгоритма нет всех ответов?

Миллионер и поганки

Представьте, что в один из серых дней в Великую Депрессию в New York Times появилось бы объявление:

"Требуются. Пятьсот выпускников вузов, мужчин, для административной работы. Зар.плата высокая. Пятилетний контракт".

Тысячи отчаявшихся выпускников программ бакалавриата подали заявки на вакансию. Пятьсот были наняты («трудяги, не особо блиставшие на курсе»). Они начали работать на таинственного миллионера, похожего на Илона Маска, который изобретает «новый план универсального знания». В отдалённом поместье в Пенсильвании каждый человек прочитывает триста книг в год. Потом эти книги сжигались для обогрева поместья. В конце пятого года все участники проекта, прочитавшие суммарно четверть миллиона книг, были готовы получить 50 тыс долларов. Они приходили в офис за чеком, но встречали там хирурга, жаждавшего вытащить их мозг, упаковать его в стеклянную колбу и отправить безумному миллионеру в поместье в Пенсильвании. Там, в своей лаборатории, миллионер придумал план: соединить все колбы с мозгами с помощью проводов, радиопередатчиков и печатной машинки. Это хитроумное изобретение получило название Церебральная библиотека (Cerebral Library).

Миллионер: «Итак, если я хочу все знать о поганках, то я просто набираю слово поганка на печатной машинке. Происходит волшебство. Потом радиопередатчик выдает «синтез всего о поганках, тысячи слов».

К счастью, если мы хотим узнать все о грибах, то нам не надо забирать мозг у 500 выпускниках бакалавра. Миллионер такого эксперимента не делал, хотя в фантастическом журнале Amazing Stories за май 1931 года такая история опубликована. Мы просто зададим команду в строке поиска ChatGPT от OpenAI: «Напиши рассказ в тысячу слов про поганки». Волшебство. И далее: поганки – это грибы, встречаются в флоре многих точек мира. Машина начинает выдавать текст про поганки.

Какова цена такого сервиса для человечества: заполнить интернет-сеть десятками миллионов или миллиардов алгоритмов, натренировать их на данных и ждать, что они будут воспроизводить знания? Цена довольно высокая, как и преимущества такого сервиса. Измерить размер сохраненных данных – довольно несистемная задача. Никто, в действительности, не знает, насколько велик Интернет. Некоторые говорят, что в Интернете больше «зеттабайта» данных. Это триллион гигабайтов или один секстиллион битов. Это очень много мозгов в стеклянных банках.

Как человек получает ответ на вопросы - к чему он обращается?

Но забудем о зеттабайт Интернета на минутку. И забудем про стеклянные банки с мозгами. Представьте, что все знания в мире систематизированы и хранятся в вертикальном шкафу для документов. В нем четыре выдвижных ящика. Каждый ящик имеет ярлык, наклеенный сверху над металлическим ярлычком, за который мы дергаем, чтобы открыть ящик. Названия ящиков сверху вниз: «Тайны», «Факты», «Номера», «Данные». Тайны – это то, что только Бог знает, например, дата вашей смерти. Много лет назад в этом ящике находились такие папки как «Почему существуют звезды», «Когда зародилась жизнь». Однако, благодаря технологическому прогрессу некоторые папки перенесли в ящик «Факты». Папки в ящике «Факты» содержат все, что человек может доказать с помощью объективных данных. Ящик «Числа» содержит сбор сведений, опросы, вычисления, средние значения – результаты измерений. Все цифры с того момента, когда появилась статистика (конец 18го века). «Данные» — это знания, которые человек может не знать сам, но может получить с помощью компьютера или алгоритма. Тот ящик был пустой, но стал наполняться только столетие назад. И теперь он так забит папками, что его сложно открыть.

Каждый из четырех ящиков живет по своей логике. Папки в ящике «Тайны» собираются для поиска способа освобождения от грехов. Вы собираете эти папки через откровения, они связаны с мистификацией и теократией. Наука, изучающая эти тайны, - теология.

Сбор фактов – это попытка найти истину. Вы получаете факты путем их распознавания, они связаны с разделением светской науки и религии, либерализмом. Науки, изучающие факты,- это право, гуманитарные науки, естественные науки.

Числа появляются в результате статистики. Вы узнаете их, когда измеряете, они связаны с методами измерения. Они возникли по ходу увеличения силы административных органов власти. Науки, изучающие цифры, - социальные науки.

Данные нужны для ввода в компьютер и получения закономерностей, которые вычисляются путем поиска паттернов. Эпоха данных связана с поздним капитализмом, авторитаризмом, техно-утопией. Данные изучает наука о данных.

Все это способы получения знаний. Если вы хотите понять какое-то явление, например, массовые убийства в США от огнестрельного оружия, то нужно поискать информацию во всех четырех ящиках. Например, в первом ящике вы можете найти объяснение, почему люди молятся за убийц. Таким образом они пытаются бороться с грехом убийцы. Юристы и историки собирают данные о массовых расстрелах. Техно аналитики пытаются разработать алгоритм, который предскажет, в какой школе будет следующее массовое убийство. В каждом ящике есть что-то полезное. Проблема человечества сейчас в том, что люди заглядывают только в последний ящик –«Данные». Им кажется, что это единственное место, где они смогут найти ответы на свои вопросы.

«Как появились данные: история от эпохи разума до эпохи алгоритма»

Профессоры Колумбийского университета Chris Wiggins и Matthew L. Jones написали книгу под названием «Как появились данные: история от эпохи разума до эпохи алгоритма». Академики открыли два ящика – Числа и Данные. Профессор Chris Wiggins -прикладной математик, а также главный дата аналитик в Times. Его коллега- профессор Matthew L. Jones -историк науки и техники. Он преподает историю науки о данных. Книга начинается с анализа, когда появилась наука о данных. Это произошло в конце 18 го века, когда в английском языке появилось слово «статистика». Есть главы, описывающие становление власти государства и использование статистики для сбора данных.

Сто лет назад числа имели такую же власть, какую данные имеют сегодня. Социальная наука изучала общество и его проблемы с помощью цифр. Например, почему возникает бедность. В 18-19м веках страховая компания Prudential Insurance Company наняла немецкого иммигранта Frederick Hoffman, чтобы защитить компанию от обвинений, что она не страховала черных американцев. В 1896 Frederick Hoffman опубликовал статью под названием «Расовые черты и тенденции американских негров» в журнале American Economic Association. Он показал с помощью статистики, что уровень смертности и рождаемости доказывает неполноценность черных и превосходство «арийской расы». Напрасно американский социолог W. E. B. Du Bois подчеркивал, что ранняя смертность и тяжелые условия жизни являются следствием дискриминации, а не ее оправданием.

* W. E. B. Du Bois (William Edward Burghardt Du Bois) - афроамериканский общественный деятель, панафриканист, социолог, историк и писатель. Дюбуа родился 23 февраля 1868 года в Грейт-Баррингтоне (Массачусетс, США). Мулат (как мать, так и отец имели смешанное происхождение). В 1895 году он стал первым американцем с африканскими корнями, получившим степень доктора философии Гарвардского университета, а спустя два года стал профессором истории и экономики университета Атланты, занявшись изучением вопросов о социальном положении афроамериканцев. Он пришёл к выводу, что социальные изменения произойдут лишь под воздействием волнений и протестов. Взгляды Дюбуа и его единомышленников из числа образованной чёрной молодёжи были оппозиционны идеям другого активиста за права афроамериканцев того времени — Букера Вашингтона, выступавшего за социальную интеграцию чёрных и белых посредством отказа первых от немедленного предоставления им равноправия, в то время как Дюбуа считал верным путём борьбу за получение высшего образование хотя бы «одарённой десятой частью» (talented tenth) афроамериканцев, которая бы работала на благо развития афроамериканцев.

В 1951 году ему было предъявлено обвинение за службу в разведке иностранной державы (Советского Союза), и, хотя обвинения с Дюбуа (за которого заступился сам Альберт Эйнштейн) вскоре были сняты, он к тому времени полностью разочаровался в США. К тому же, в 1955 году американское правительство не разрешило ему выехать в Индонезию на Бандунгскую конференцию. В 1961 году он вступил в американскую Коммунистическую партию, переехал в Гану и отказался от американского гражданства.

Задолго до того, как был изобретен первый компьютер, чиновники и исследователи начали собирать и структурировать данные о численности и составе населения: рост, вес, возраст, пол, раса, политическая принадлежность, доход. Все эти данные хранили в виде таблиц и структурированного текста. К 1930-м годам данные начали обрабатывать с помощью компьютеров. Британская энциклопедия впервые была издана в печатном виде в 1768 году. Она стала массовым продуктом в США в 1920х гг. Заголовки газет пестрили: «Если что-то ищешь - посмотри в Британской энциклопедии. Кладезь знаний человека. 29 томов, 28 150 страниц, 44 000 слов. Отпечатана на тонкой, но прочной индийской бумаге. Каждый том шириной в дюйм. Создана, чтобы отвечать на вопросы». 29 томов- это слишком много для инженера, который изобрел Церебральную библиотеку (Cerebral Library). Он предпочел перевести семьсот пятьдесят тысяч книг в связанную сеть данных. «Вся информация в сети принадлежит мне. Мне просто нужно уметь управлять машиной. Мне даже не нужно читать ни одну из этих книг». Известный основатель крипто биржи Sam Bankman-Fried, ожидающий суда за мошенничество, сказал в одном интервью: «Я вообще не стал бы читать ни одну книгу».

Движение технократов в 1930х

Это кого-то волнует? В 1930х годах утопии о превосходстве технологий нашли свое воплощение в движении технократов (Technocracy movement). Это движение соперничало с социализмом и фашизмом как альтернатива капитализму и либеральной демократии. Памфлет 1939 года под названием «Технократия простым языком» гласил: «Технократия – это применение науки к социальным вопросам».

Технократы предлагали отмену всех существующих устройств и институтов в экономике и политике – правительств и банков, например, - и заменить их всех инженерами, которые будут всем управлять с помощью цифр. «Деньги будут не нужны, их функцию – покупка товаров и услуг – будут выполнять научные инструменты измерения ценности». Памфлет уверял, что всем «понравится жить под властью технократов». Под управлением технократов людям не понадобятся имена, нужны будут только цифры. Один из технократов назвал себя 1x1809x56. Представители технократов носили серые сюртуки и водили серые машины. Их можно сравнить с современными техно гиками в серых худи и в серебристых Тесла. Идея криптовалюты и отмены денег – сходна идеями технократов 30х годов.

История семьи Илона Маска - технократов

Технократы, как политическое движение, потеряли свою популярность в 40х годах, их логика звучит и поныне. Дедушка Илона Маска был лидером движения технократов в Канаде. Он был арестован за участие в этом политическом движении и переехал в Южную Африку, Преторию. Там и родился Илон Маск в 1971 году. Одного из детей Маска назвали x æ a-12. Добро пожаловать в мир технократов.

Цифры и данные – инструмент государства

Идея культуры цифр и культуры данных началась сразу после Второй Мировой Войны. Статистика стала полагаться больше на математические методы, в основном для составления прогнозов. Цифры стали востребованными из-за военного времени, когда все требовало расчетов, начиная от траектории ракеты до расшифровки шифра противника. Профессоры Колумбийского университета Chris Wiggins и Matthew L. Jones: “Данные стали источником для поиска истины о человеке и природе. Речь шла не о данных, полученных из небольших экспериментов. Нужны были данные, которые бы отвечали на жизненно важные вопросы и спасали жизни». Очарование цифрами продолжилось и после войны и стало инструментом государства для целей национальной безопасности. Математическое моделирование, возросшая способность хранить большее количество данных, и компьютерная симуляция способствовали обнаружению закономерностей в разведке, военной сфере, социальных науках и бизнесе.

Прогнозы на основе данных не всегда применимы в социальных науках

Несмотря на преимущества, которые эти инструменты предоставляли исследователям в естественных науках (например, в исследованиях молекул), ученые в других областях жаловались на негативный эффект такого подхода к цифрам в других областях. В 1954 году Claude Lévi-Strauss заявил, что ученым в области социальных наук стоит «отойти от безнадежности «больших цифр» - островка, за который они цепляются в океане цифр». Однако исследовательские институты сменили их приоритеты. Ford Foundation объявил, что хотя мышление человека ему интересно, но нет смысла ориентироваться на «спекулятивные, ненаучные» рассуждения философов и социальных политиков, которые не могут что-то предсказать. Самое правильное – это ориентироваться на такие науки как физика, которая основывается на «эксперименте, сборе данных, теории, доказательстве теории и прогнозе». Экономические и политические науки стали заниматься прогнозами, а другие области применения наук перестали быть привлекательными.

Инструменты прогнозирования в современном бизнесе для получения прибыли - результат реализации задач шпионажа во времена Холодной войны

Оцифровка знаний человека продвигалась. Книги и фильмы переводили в цифровую форму, в биты и байты. Технологии искусственного интеллекта, изучение которых началось в 50-х годах, пытались найти доказательства, что есть правила, по которым человек делает свои суждения. Такой подход уперся в стену, известную как «узкое место в накоплении знаний». Прорыв произошел по мере способности машин накапливать огромные массивы данных и способности машин обучаться на этих массивах. Как пишут профессоры Wiggins и Jones: «Все началось с накопления данных системы бронирования авиабилетов в 1960-х годах. Отрасль аккумулировала огромное количество данных о пассажирах». Это были данные кредитных карточек, аренды автомобилей, чекауте. В 1962 году John Tukey, математик из Bell Labs, предложил новый подход, который он назвал «анализ данных» - предтеча того, что мы сегодня называем «дата сайенс». Анализ данных возник из сведений, поступавших от служб разведки, и попытки опередить Советский Союз. Хотелось ответить на вопрос: Что они будут делать дальше? Сегодня Netflix пытается предугадать, какой выбор вы сделаете, Гугл пытается угадать, какие сайты вам показать – это инструменты- результат работы шпионов во времена Холодной войны. Бизнес в 21 веке – это шпионаж в целях получения дохода.

Что значит гонка оцифровать все для человека – взгляд инженера на книги

Пока копились данные, машины на них обучались, а компьютеры учились не только считать, но и взаимодействовать с человеком, лучшие умы интересовались, что все это значит для человека. В 1965 году блестящий инженер J. C. R. Licklider, пионер интернета, написал работу «Библиотеки будущего».

Инженер подробно описал недостатки книг. «Если общение между людьми включает в себя язык тела и является динамическим процессом, часть которого- постоянный пересмотр и анализ мелких деталей, то библиотека с книгами, которые просто лежат на полке, - это проблема. Наблюдать миллионы книг на тысячах полок» - это ж кошмар. «Если информация хранится в книгах, то нет возможности передавать ее читателю без физического хождения между полками, физического контакта с книгами».

А если конвертировать книги в данные, которые можно считать с помощью компьютера, то данные можно легко передавать пользователю. Причем неограниченному количеству пользователей. Инженер считал контент, который содержится в книгах библиотеки Конгресса, как сумму знаний. По его оценкам контент будет увеличиваться каждое десятилетие. Сумма знаний или данных в 2020 году составит около десяти петабайт. Зетабайт – это петабайт и еще шесть нулей. Он немножко ошибся- в тысячу раз.

Каждый миллиард документов, который правительство США, отмечает грифом «секретно», увеличивается на 50 млн ежегодно. Если хорошенько изучить эти документы, то выясняется, что девять из десяти документов не являются секретными. Тем не менее, никто не считает нужным снимать с документов гриф «секретно». Как управлять таким массивом данных? Это становится проблемой для правительства.

Историк Matthew Connelly в своей работе «Рассекречивая главные секреты Америки» использует инструменты, применяемые в разведке и контрразведки: анализ движения данных, обнаружение аномалий и прочее. Он называет «рассекречиванием» технологию, «которая может помочь идентифицировать действительно важную информацию, которую нужно засекретить». Рассекречивание документов может помочь обнаружить важные исторические факты.

Анализ данных стал единственными инструментом получения знаний. Куда делись другие инструменты?

В начале 21го века анализ бизнеса, государственных и академических данных стали называть «дата сайенс». Изначально этот инструмент был одним из инструментов для получения знаний, но потом он стал единственным инструментом. По всей стране дата сайенс изучает в колледжах и университетах, дата сайентист –самая востребованная специальность в США. Новая дисциплина становится актуальной в каждой области. Однако это означает, что люди открывают только один из четырех ящиков знаний, отказываясь от других способов познания мира. Профессора Wiggins и Jones призывают быть осторожными с такой однобокостью. «На самом высоком уровне эта дисциплина представляется главной, способной переориентировать науку, бизнес и государство на свой лад».

Очень легко прийти к мысли, что все беды вызваны гипертрофированным энтузиазмом по отношению к цифрам сто лет назад. И легко склониться к заблуждению, что все зло сегодня вызвано эйфорией от дата сайенс и ИИ. Самое страшное зло – это попытка предсказать человеческое поведение и распределять ресурсы соответственно: использовать алгоритм для определения, кого из обвиняемых выпустить под залог или оставить под арестом.

История может быть предсказательной наукой? Тогда это не история

Matthew Connelly считает, что его вычислительный алгоритм, определяющий целесообразность деклассификации секретных документов, может быть использован «как МРТ или рентген для политических событий». Но история – это не предсказательная наука. Иначе речь идет не истории. Ученые в области права идут в том же направлении. Orly Lobel, профессор права Университета Сан Диего написал в своей работе «Машина равноправия: применение цифровых технологий для лучшего, инклюзивного будущего», что решение проблемы алгоритмов с предубеждением – это написание более совершенных алгоритмов. Идея правильная, за исключением того, что результат алгоритма –применение правила, управляемого алгоритмом. Не пора ли перестать цеплять за поток данных, а поискать истину в море тайн?

Сергей Брин, 1997 год: поиск паттернов в больших данных может привести к дискриминации

В 1997 году, когда Сергей Брин был студентом Стэнфорда, он написал сообщение о возможных пагубных последствиях обнаружения паттернов в данных и использовании паттернов для предсказаний. Он аккуратно предположил, что дискриминация может быть вполне «вероятным следствием использования данных». Сергей Брин тогда имел в виду страхование. «Компании, занимающиеся страхование автомобилей, анализируют данные по авариям и устанавливают тарифы на основании таких данных, как пол, возраст, тип автомобиля. Если бы закон им разрешал, они бы использовали и другие данные: религию, расу, инвалидность и другие параметры, которые, по их мнению, влияют на вероятность возникновения аварии».

Страховые компании минимизировали свои риски еще до принятия Законов Хаммурапи* тысячу лет назад.

*Законы Хамурапи, также Кодекс Хаммурапи, - законодательный свод старовавилонского периода, созданный при царе Хаммурапи в 1750-х годах до н. э. Законы Хаммурапи — результат крупной реформы существовавшего правопорядка, призванной унифицировать и дополнить действие неписаных норм поведения, зародившихся ещё в первобытном обществе. Законы были созданы на раннем этапе становления ближневосточного сословного общества, что обусловило сравнительную жестокость установленных ими уголовных наказаний, Законы отличаются исключительной продуманностью и стройностью правового регулирования. В отличие от большинства других древних памятников Востока, для свода Хаммурапи характерно практически полное отсутствие сакрально-религиозной мотивации отдельных правовых норм, что делает его первым в истории человечества чисто законодательным актом.

Размышление Сергея Брина не стало началом исследования вопросов этики, истории, языка или философии. Все, что он понимал, так это то, что он не хотел сделать мир хуже. «Не сотвори зла» (Don’t be evil) стало слоганом Гугла. Но если положить мозги людей в стеклянные банки и сжечь все книги, то зло точно случится.

1313 показов
2727 открытий
Начать дискуссию