Можно без опыта: что нужно знать начинающему дата-аналитику

Глава из ещё не опубликованной книги «Работа с данными в любой сфере».

Я не утверждаю, что если вы прочтете эту книгу, то станете экспертом в области науки о данных, но, безусловно, есть способы, с помощью которых вы можете начать менять свое мышление, чтобы получить преимущество перед другими, кто тоже хочет познакомиться с этой дисциплиной.

Такова цель главы №3. Всем известно, что, если вы играете на музыкальном инструменте, необходимы годы практики, прежде чем вы овладеете им на профессиональном уровне. Нужно освоить гаммы и арпеджио, ваши пальцы должны скользить по клавишам, будто они смазаны маслом, и ваши соседи, вероятно, станут протестовать против шума прежде, чем вы только осмелитесь приступить к Рахманинову.

Короче говоря, чтобы превратиться в хорошего музыканта, нужны значительные инвестиции вашего времени и денег. Наука о данных обходит стороной этот трудоемкий процесс.

Даже если вы изучите только самые основные «гаммы» — например, первые несколько алгоритмов, приведенных в главе 6 «Анализ данных» (часть I), — вы всё равно значительно продвинетесь на пути к работе с очень сложным материалом.

И как любой, кто имеет доступ к компьютеру, также сможете познакомиться с множеством бесплатных онлайн-программ и презентаций, касающихся анализа данных (а также курсов по науке о данных).

Вы почти сразу сможете начать совершенствовать вашу технику, позволив программному обеспечению выполнить за вас подготовительную часть, пока вы сосредоточены на творческой составляющей своего проекта.

Хотя я всегда призываю тех, кто планирует заниматься наукой о данных, читать и узнавать как можно больше о ней, чтобы добраться до вершин своей профессии, я должен также подчеркнуть, что первое вхождение в предмет не должно быть ошеломляющим.

Хотя и существуют некоторые предпосылки к тому, чтобы стать аналитиком данных (их мы рассмотрим более подробно в главе 10), я выбрал пять ключевых атрибутов для соответствующей настройки вашего мышления. Они позволят вам прямо сейчас приступить к освоению этой дисциплины.

Аналитикам данных не нужно знать всех тонкостей каждой части программного обеспечения и каждого алгоритма, чтобы разбираться в этой области.

Существует огромное множество доступных программ, а алгоритмы варьируются от простейших, способных классифицировать данные, до самых сложных, использующихся в искусственном интеллекте.

Когда вы в самом начале пути, то, прежде чем погрузиться в определенную область, нужно потратить время и выяснить, в какой сфере лежат ваши интересы, будь то визуализация или машинное обучение.

Воздержитесь от спонтанного ответа — он не только ограничит вас на начальном этапе изучения науки о данных, но и может лишить вдохновения, если вы совершите ошибку при выборе.

Многим визуализация может показаться интереснее, чем анализ, но вы должны не жалеть времени на то, чтобы понять, что требуется в каждом случае. Хорошая новость заключается в том, что к тому моменту, когда закончите читать эту книгу, вы будете гораздо яснее представлять, какая область интересует вас больше всего.

Давайте также уточним, что мы имеем в виду, говоря об ориентации на конкретную область: существует большая разница между выбором ниши, из которой вы можете совершить прыжок в своей карьере, и специализацией в ней.

Последнее — опасный шаг, делать который я бы никогда не посоветовал. В конце концов, наука о данных — динамичный предмет и требует от своих практиков быть столь же динамичными в исследовании того, как решать новые проблемы в этой области. Алгоритмы меняются, программное обеспечение — тоже и специализация в том, что в будущем перестанет существовать, не является конструктивным способом практиковать рассматриваемую дисциплину.

Как мы обсуждали в главе №1, аналитики данных должны быть хорошо осведомлены о росте и переменах. Это особенно верно, если учесть, что скорость технологического развития непосредственно влияет на их работу, как это определено законом нашего старого друга Мура.

Обобщим то, что мы узнали в главе 1: закон Мура является проекцией экспоненциального роста и основан на первоначальном наблюдении, что количество транзисторов в интегральной схеме будет удваиваться каждые два года.
С тех пор этот закон используется для учёта темпов развития (и обратно пропорциональных затрат) в области технологии и для прогнозирования того, как скоро будущие достижения могут стать реальностью.
Тот факт, что каждый год у нас появляется новый iPhone с процессором примерно на 50% быстрее, чем у предыдущей модели, служит одним из таких примеров действия закона Мура.
В отличие от ситуации 30-летней давности, когда доступ к средствам обработки данных имели только сотрудники разведывательных служб и правительственных органов безопасности, сегодня даже детям дошкольного возраста доступен широкий спектр данных с лежащих в их заднем кармане ручных устройств.
Закон Мура позволяет нам получить доступ к данным, исследовать и использовать их потенциал через этот взрыв технических достижений. Одним из моих любимых примеров действия закона Мура на практике является проект «Геном человека», который был запущен в 1990 году (данные из этого проекта находятся в свободном доступе).
Участники проекта поставили перед собой задачу определить последовательность пар оснований нуклеотидов, составляющих ДНК человека. Медленные темпы в первые годы реализации проекта вызывали обеспокоенность у тех, кто наблюдал за его развитием извне.
По прошествии первых семи лет прогнозисты подвели итог — в какой части генома последовательность установлена — и предсказали, что для завершения работы потребуется ещё 300 лет. Однако в этих прогнозах они не учли закон Мура. Конечно же, следующие семь лет проекта ознаменовались полным и успешным секвенированием генома — примерно на 294 года раньше запланированного срока, если принять во внимание линейную прогрессию.
Закон Мура 2.0

Как мы узнали, массив данных будет полезен не меньше, чем аналитик данных. Для любого проекта требуется высокая степень креативности, чтобы получить максимальную отдачу от имеющихся данных.

Аналитики данных должны проникнуться мышлением, позволяющим задавать правильные вопросы об интересующих их данных, и я хочу подчеркнуть здесь, что вы должны думать творчески и нестандартно — определяя далекоидущие последствия проекта через его массивы данных.

В конце концов, применение данных способно дать удивительные результаты — высветить проблемы, нюансы и пробелы, о которых мы, возможно, не узнали бы без тщательного анализа данных. Это актуально для всех дисциплин и отраслей, которые используют данные для управления практикой: креативность — вклад аналитиков данных в наилучшее решение проблемы — значительно повлияет на качество выполнения задания.

Конечно, необходимый уровень творчества варьируется: для решения одних проблем достаточно традиционного подхода, а для решения других нужно что-то оригинальное. И если вы спросите меня, что лежит на дальнем конце этого спектра и что находится на переднем крае науки о данных и технологий, без тени сомнения я отвечу: искусственный интеллект.

Времена высокочувствительных роботов из «Бегущего по лезвию» придут ещё не скоро, но было много ситуаций, когда роботы брали верх над людьми, играя с ними в человеческие игры.

С кем бы я ни разговаривал, упоминание искусственного интеллекта (ИИ) всегда вызывает интерес. Это увлекательная область развития, новости о которой обязательно попадут в заголовки.
Однако ИИ полностью зависит от наличия данных и способности компьютера их обрабатывать. Первое, о чём многие подумают при обсуждении ИИ, — это отношение к нему в голливудских фильмах, предупреждающих, что прогресс в этой области в конечном итоге приведет к нашей гибели.
В «Бегущем по лезвию», экранизации научно-фантастического романа Филипа К. Дика «Мечтают ли андроиды об электрических овцах?», облик и реакции роботов («репликантов») настолько реалистичны, что в конечном итоге они становятся угрозой для существования человека.
По этой причине роботов изгоняют во внеземные колонии. Однако некоторые из них возвращаются на Землю и ведут себя враждебно по отношению к нашему биологическому виду. Поскольку отличить этих роботов от людей по внешнему облику невозможно, создается машина Войта–Кампфа.
Она подобна полиграфу и фиксирует ответы на ряд вопросов, специально разработанных для изучения эмоциональной реакции испытуемых. Предполагалось, что эти вопросы озадачат роботов — поскольку у них эмоции вроде бы отсутствуют — и тем самым раскроют истинную идентичность репликантов.
Реальный прототип теста известен как тест Тьюринга. Предложенный дешифровальщиком Аланом Тьюрингом в 1950-х годах для оценки способности людей отличать машину от человека, тест оценивает ответы, полученные во время опроса.
В отличие от теста Войта–Кампфа, в тесте Тьюринга два субъекта: один — робот, другой — человек, и оба они скрыты от взгляда исследователя. Последний должен определить, какой из субъектов является роботом, — он задает обоим ряд только текстовых вопросов и оценивает, насколько их ответы похожи на те, что мог бы дать человек. (При этом задача робота — отвечать так, чтобы его не понял исследователь. — Прим. науч. ред).
Искусственный интеллект

В соревнованиях 2016 года по игре в го (очень популярная в Восточной Азии абстрактная стратегическая настольная игра, в которой участвуют двое) машине, известной как AlphaGo и созданной дочерней компанией Google DeepMind, удалось победить 18-кратного чемпиона мира Ли Седоля в четырёх из пяти игр.

Вы можете не считать это каким-то грандиозным достижением, вспомнив знаменитую шахматную партию, сыгранную русским гроссмейстером Гарри Каспаровым и Deep Blue, компьютером, специально разработанным IBM. Deep Blue выиграл, и это случилось ещё в 1997 году.

Но даже несмотря на то, что робот добился успеха почти за 20 лет до успеха AlphaGo, результат последней представляет для нас особый интерес. Игра в шахматы полностью основана на логике. Цель Deep Blue состояла в том, чтобы безупречно соблюдать эту логику и ждать, пока противник допустит ошибку. Люди совершают ошибки, машины — нет.

В отличие от шахмат игра в го основана на интуиции. По сравнению с логикой, которой руководствуется компьютер, интуиция — гораздо более сложный феномен: она требует, чтобы машина развивала внутренние знания об игре, которые не могут быть просто запрограммированы в ней*.

В го игроки перемещают черные и белые фишки по доске с разметкой 19×19 клеток. Цель игры — захватить большую площадь, чем противник. AlphaGo первоначально получила обширную базу данных — около 30 млн сделанных людьми ходов, проанализированных с помощью комбинации машинных алгоритмов и методов свободного поиска.

После того как значительное количество игр было сыграно против соперников-людей и собрано достаточно знаний о поведении противников, AlphaGo миллионы раз сыграла сама против себя, чтобы ещё больше улучшить результаты. Только после того, как этот период обучения завершился, создатели машины выставили её против лучших игроков мира.

От шахмат до го искусственный интеллект прошел значительный путь, обучаясь через действия и наблюдения, а не только применяя математическую логику.

В этот момент вы можете подумать: «Победа ИИ в шахматах и гo впечатляет, но как всё это относится к бизнесу?» Применение искусственного интеллекта не ограничивается победами над людьми в игре го. Та же компания DeepMind разработала искусственный интеллект, чтобы помочь Google лучше управлять охлаждением в их обширных центрах обработки данных.

Система смогла последовательно достигнуть поразительного 40%-ного сокращения количества энергии, используемой для охлаждения. Это не только создаёт огромный потенциал для экономии в компании, но также означает повышение энергоэффективности, сокращение выбросов и в конечном счёте — вклад в решение проблемы изменения климата (DeepMind, 2016). Если это не творческий подход к решению проблем бизнеса, то я не знаю, что им является.

Как я уже говорил в пункте №1, истинная красота науки о данных заключается в том, что в отличие от многих других дисциплин для её освоения не потребуются годы практики.

Читатели, которые только начинают заниматься наукой о данных, не должны чувствовать себя в невыгодном положении относительно сверстников, которые, возможно, работали с данными и изучали их всю жизнь. Опять же, всё, что вам нужно, — это небольшое изменение в мышлении — сосредоточьтесь на том, что вы знаете, а не на том, чего не знаете.

Используйте и свои углубленные знания другого предмета, и любые навыки, которые вы, вероятно, получили как профессионал и/ или студент.

Мало того что в науку о данных несложно вникнуть — занявшись ею после освоения какой-либо другой дисциплины, вы получаете преимущество.

Вот где творческий стержень науки о данных может проявить себя еще раз. Возьмем в качестве примера писателей-профессионалов. Если писатель потратил все свои усилия только на изучение того, как и что писать, и у него не было времени на расширение своего кругозора, на прочтение множества книг по самым разным вопросам, то у такого писателя не хватит знаний и опыта, чтобы опираться на них в работе.

То же самое верно для науки о данных: те, кто изучал только её всю свою жизнь и имеет ограниченный профессиональный или личный опыт в других сферах, будут подходить к любому проекту однобоко.

Итак, предположим, что лингвист решил заняться наукой о данных. Он будет иметь значительное преимущество перед другими аналитиками данных в связанных с лингвистикой проектах. Это правда: назовите любую профессию, и я расскажу вам, как применить в ней науку о данных.

Аналитик данных с опытом в лингвистике, например, мог бы выиграть от получения доступа к материалам из Международного архива диалектов английского языка, в котором хранятся голоса тысяч участников со всего мира, и использовать эти звуковые файлы для составления диалектной карты мира.

«Сырой» аналитик данных может поэкспериментировать с материалом, но специалист по данным с правильным прошлым задаст правильные вопросы, чтобы получить действительно интересные результаты.

Скажем, Вест-Индия, известная лингвистам распространенным там необычным сленгом, может быть взята в качестве объекта первоначального исследования, результаты которого заложат основы для дальнейшего изучения поколенческих, этнических и гендерных различий в речи.

Стать специалистом в области науки о данных не означает разворот на 180˚ по отношению к тому, что вы узнали и освоили раньше. Как раз наоборот. Иногда самые интересные для вас проекты будут находиться «рядом с домом».

Подумайте о проблемах, с которыми вы сталкиваетесь на своем рабочем месте: есть ли способ решить их с помощью данных?

Хотя это, несомненно, полезно, вы необязательно должны быть экспертом в какой-то области, чтобы иметь фору в науке о данных.

Даже гибкие, широко использующиеся навыки, такие как работа в команде и опыт публичных выступлений, могут значительно помочь вам. Они принесут даже больше пользы, чем глубокие знания, тем, кто, еще не успел получить достаточный жизненный опыт или образование.

Подумайте о своих навыках: вы легко общаетесь? Можете ли вы адаптировать устоявшиеся решения к различным ситуациям? У вас эстетический вкус? Вы нестандартно мыслите?

Я пришел в науку о данных, будучи специалистом в области финансов, но, хотя мои знания, несомненно, пригодились мультинациональной консалтинговой фирме Deloitte, думаю, что в конечном итоге мне помогли гибкие навыки, которые я приобрел гораздо раньше, ещё в школьные годы.

Кроме того, начиная заниматься наукой о данных, я хорошо понимал, как визуализировать результаты проектов эстетически привлекательным образом. В детстве я жил в Зимбабве, где дважды в неделю изучал изобразительное искусство.

Я приобрел только базовые навыки в рисовании и научился лепить забавную глиняную посуду, но, хотя курс, возможно, и не сделал меня преемником Жоана Миро (каталонский художник-абстракционист, прославившийся в том числе керамическими работами. — Прим. пер.), он научил меня тому, как цвет, эстетика и положительные психологические эффекты могут повлиять на мой итоговый рабочий отчет.

После того как несколько лет спустя я вернулся в Россию, мне преподавали — в трех разных школах — совсем другое, в основном точные науки. Это научило меня академической строгости, которая пригодилась в грядущие годы в университете, но привело к нехватке необходимых социальных навыков.

Будучи почти неисправимым интровертом, я работал над собой, чтобы приобрести некоторую уверенность в себе и развить способность к общению — качества, которые, как я знал, мне понадобятся. Я нашел книгу по самопомощи, в которой было все, что мне требовалось знать о том, как выбраться из своей раковины.

Упражнения в ней были немного необычными (общаться, лежа посреди оживленной кофейни, или завести непринужденный разговор с людьми в общественном транспорте), но для меня они сработали.

Эти усилия, первоначально, возможно, мотивированные юношеским стремлением к участию в университетских мероприятиях и спортивных командах, позже помогли мне зарекомендовать себя коммуникативным человеком, что оказалось привлекательным на моей работе, где были нужны аналитики данных для предоставления отчетов широкому кругу лиц, имеющих отношение к деятельности всей компании.

Это ещё один важный фактор для аналитиков данных: если вы хотите получить возможность запустить проект по обработке и анализу данных, вам придется научиться разговаривать с нужными людьми. Это часто будет означать расспросы вне вашей команды и потенциальной зоны комфорта.

Данные ничего не скажут вам, если вы не зададите правильные вопросы, поэтому ваша работа — выйти «в свет» и получить ответы от людей, которые внесли свой вклад в вашу базу данных. В обоих случаях, которые мы здесь обсуждали, — используете ли вы связанное с углубленными знаниями преимущество для поиска информации и применяете ли гибкие навыки для получения ответов от людей, — вы, вероятно, сталкиваетесь с данными, которые не являются числовыми и истинность которых поэтому зависит от контекста и субъективности анализа.

Информация такого рода — мы называем ее неструктурированными данными — может быть письменным ответом, либо записанным видео- или аудиоинтервью, либо изображением. По причине того, что неструктурированные данные нельзя оценить количественно, компании часто предпочитают приглашать для их анализа специалистов в соответствующих областях.

Одним из замечательных аспектов науки о данных является то, что существует множество бесплатных материалов с открытым исходным кодом, которые позволяют легко продолжать практиковаться.

Новички в какой-либо дисциплине склонны месяц за месяцем изучать теорию вместо того, чтобы настроить свое мышление на применение полученных знаний на практике.

В качестве упражнения просто введите в поисковике слова «бесплатные массивы данных» или «free datasets» — и найдете множество сайтов, которые позволяют скачать их CSV-файлы (файлы для хранения табличных данных), готовые для анализа.

Учитывая огромное количество и диапазон данных, от космических исследований NASA до комментариев Reddit или даже спортивных данных (баскетбол, футбол, бейсбол), я уверен, что вы найдёте что-то ценное и интересное.

В то время как лучшие инструменты анализа в настоящее время небесплатны для пользователей, всё большее количество программного обеспечения либо имеет открытый исходный код, либо находится в свободном доступе в интернете.

Если бы вы были художником, это походило бы на бесконечный запас мольбертов, красок и холстов. Я настоятельно призываю вас использовать эти общедоступные массивы данных для проверки своих навыков и проведения собственных анализов.

В практике нет кратчайшего пути. Многое из того, что вы делаете, особенно на начальном этапе, будет включать в себя пробы и ошибки. Лучший способ приучить себя отстранённо думать о решении проблем с помощью данных — повысить свою открытость различным сценариям, другими словами, различным массивам данных.

С чего начать? Лучший выбор может быть прямо под носом. Я ожидаю, что многие читатели окажутся владельцами бизнеса или сотрудниками компании, которая рассчитывает использовать данные в ближайшем будущем.

Те из вас, кто так или иначе работал с какой-то компанией, в какой-то момент столкнутся с бизнес-аналитикой.

Если вы уже использовали бизнес-аналитику (БА) на своем рабочем месте, значит, вы уже кое-что умеете. С помощью БА вы должны определить бизнес-вопрос, найти соответствующие данные, визуализировать и представить их убедительным образом инвесторам и заинтересованным сторонам.

Это уже четыре из пяти этапов процесса изучения данных, к которым мы вернемся во второй и третьей частях. Основным исключением является то, что БА не проводит детального, исследовательского анализа данных. Она просто описывает то, что произошло, в процессе, который мы называем «описательная аналитика».

Наука о данных даёт нам основу для ответа на дополнительные вопросы, связанные с массивом данных компании, а также для прогнозирования и идей по улучшению. У технологической исследовательской фирмы Gartner есть модель для разделения науки о данных на четыре типа, и, если бизнес-аналитика соответствует первому типу анализа, наука о данных может помочь поставить галочки для трёх остальных.

Это хорошая новость, но, если вы будете заниматься бизнес-аналитикой без учёта принципов науки о данных, это может в конечном итоге помешать вашему прогрессу.

Вы будете использовать данные для составления первого бизнес-отчета — но ведь владельцам бизнеса часто нужны отчеты на регулярной основе. В таком случае данные обычно отходят на второй план: все внимание приковано к конечным результатам.

Это одна из проблем БА — данные часто оказываются вторичны по отношению к содержанию обновленного отчёта. Но данные должны быть в центре любых результатов и идей, которые связаны с бизнесом, — для каждого отчёта, который мы составляем, нужно заранее провести анализ данных — иначе мы ограничимся изучением лишь тех из них, что присутствовали в предыдущем исследовании.

Цепляться за БА может быть заманчиво, когда вы или ваша компания работали таким образом в течение многих лет, но наука о данных предлагает гораздо более впечатляющий набор инструментов — образно и буквально — для анализа.

Благодаря ей разрабатываются и применяются различные аналитические программы и формируется процветающее онлайн-сообщество аналитиков данных, работающих с открытыми исходными кодами для того, чтобы усовершенствовать процесс и поделиться своими достижениями.

Возможность использования этих инструментов избавляет человека от необходимости искать информацию вручную, позволяя сосредоточиться на преодолении узких мест, раскрытии возможностей продаж и оценке работоспособности бизнес-подразделения. К сожалению, традиционная зависимость БА от Excel может научить вас плохим привычкам.

Все мы рано или поздно сталкиваемся с Excel. Она стала одной из самых важных программ для корпораций, и большинство таблиц существуют в формате XLSX.

Тем не менее для Excel характерна тенденция чрезмерного упрощения, и поэтому у вас может сложиться искаженное впечатление о данных. Если вам знакомо только представление данных в Excel, вы должны быть готовы изменить свое восприятие аналитики.

Мы подробно рассмотрим трудности с Excel в главе 5 «Подготовка данных», а здесь лишь отметим: в программном обеспечении, возможно, нет типов данных. Мы, конечно, не имеем дело с ними напрямую, а это означает, что в электронной таблице неподготовленного человека строки, формулы и визуальные эффекты окажутся перепутаны.

Несмотря на то что Excel выглядит как таблица, мы можем вставлять числа, слова, ссылки и дроби в одни и те же колонки, тем самым смешивая все типы данных без разбора. Ни один инструмент науки о данных не позволит вам смешивать данные и логику — проблема, которую мы рассмотрим в главе 5.

В любой системе управления базами данных логика и данные должны рассматриваться отдельно. Будьте готовы использовать программу, которая не является Excel. На мой взгляд, одни из лучших программ для анализа массивов данных — R и Python.

Неструктурированная аналитика работает, как вы уже догадались, с неструктурированными данными, которые составляют большую часть информации в мире.

Давая определение неструктурированным данным, проще сказать, что это всё, что не относится к структурированным данным (числовой информации). Это может быть текст, аудио, видео или изображения.

Название объясняется тем, что этот вид данных нельзя непосредственно преобразовать в массив данных — их необходимо сначала подготовить, а поскольку неструктурированные данные зачастую нельзя автоматически перевести в исчисляемые, то в их анализе неизбежна некоторая степень субъективности. В связи с этим неструктурированная аналитика крайне важна для любого исследователя данных.

Классическим примером неструктурированной аналитики является работа с качественными опросами, которые дают данные в текстовом или ином нечисловом формате. В прошлом эти данные должны были быть преобразованы в числовую форму, прежде чем их можно было понять с помощью аналитических инструментов.

Это означало, что любые вопросы, которые не предполагали множественного выбора или одного ответа — и поэтому не могли быть легко перенесены в числовой формат, — требовали от аналитика данных вручную производить численную классификацию каждого ответа.

Например, на вопрос о том, чем наслаждался посетитель Йеллоустонского нацио нального парка во время своего пребывания в нем, можно было получить ряд ответов, включая «полевые цветы», «пикники», «занятия живописью», «наблюдение за птицами», «греблю на каяке», «отличный отель с завтраком» и так далее.

Аналитик данных должен был бы прочитать все эти результаты, а затем вручную сгруппировать их в категории, которые, по его мнению, были значимыми, такие как «природа», «деятельность», «экскурсии» и «отдых». Не всегда легко сгруппировать ответы по категориям, так как здесь не исключен субъективный подход.

Вы можете себе представить, что перевод этих ответов в числа в лучшем случае представлял итоговый массив данных в немного искаженном виде. Сегодня методы сортировки результатов по контексту кардинально изменили то, как мы проводим исследования, и новые алгоритмы в этой области помогают нам точно работать в том числе и с изображениями.

Аналитики данных признают наличие проблем в методах организации качественных данных и прилагают согласованные усилия для обработки значений, которые нелегко преобразовать в цифры. Полученные алгоритмы позволяют давать гораздо более точные прогнозы, чем было возможно ранее.

Теперь мы можем рассматривать слова аналогично числовым данным, например обучая аналитические инструменты идентификации вспомогательных глаголов, а также идиоматических выражений, которые имеют отдаленное отношение к заданному ключевому слову.

Это позволяет машине исследовать текстовые данные куда более качественно. Здесь может прийти на ум анализ литературных произведений с помощью цифровых гуманитарных наук, но это лишь мизерная доля того, что могут делать машинные алгоритмы в этой области.

Применения неструктурированной аналитики выходят далеко за рамки академической сферы и простираются в мир коммерции. Даже в криминалистике машины теперь могут просматривать письменные сообщения подозреваемых с целью установить особенности поведения, которые детектив мог не заметить.

Вы можете подумать, что люди всегда будут действовать эффективнее машин при изучении средств массовой информации: большинство из нас всё ещё считает, что мы всегда будем лучше понимать более широкую контекстуальную среду.

Как компьютер может распознать период искусства, или стаю чаек, или эмоции лучше, чем человек? На самом деле машины уже давно могут давать ошеломляюще точные прогнозы в отношении нечисловых данных.

Ещё в 2011 году исследование, проведенное Институтом нейроинформатики Рурского университета в Бохуме и кафедрой компьютерных наук Копенгагенского университета, показало, что машины могут превосходить людей в выполнении даже таких сложных задач, как идентификация дорожных знаков (Stallkamp et al., 2012).

Для этого исследования команда показала испытуемым машинам и людям фотографию, разделённую на квадраты. Задача состояла в том, чтобы определить, на каких квадратах (если таковые имелись) есть полное или частичное изображение дорожного знака.

Возможно, вы видели эти тесты в интернете — в настоящее время они используются для дополнительной проверки безопасности перед входом пользователя на сайт и специально разработаны, чтобы лишить роботов доступа к защищённым данным.

Результаты этого исследования показывают, что мы уже не в состоянии предотвратить захват данных искусственным интеллектом.

Я вижу, что облака слов часто используются в публичных презентациях, и подозреваю, что причина в том, что они искусно и содержательно сочетают изображение с текстом. Облака слов (или облака тегов) — это популярные способы визуализации текстовой информации, и если вы ещё не используете их в своих презентациях, то захотите, узнав, как они работают.

Создатель облака слов берет набор наиболее часто используемых слов из фрагмента анализируемого текста и группирует их в одном изображении, обозначая порядок их важности размером шрифта, а иногда также и цветом.

Облака слов, естественно, можно использовать для выделения тех терминов, которые чаще всего встречаются в тексте, будь то пресс-релиз или литературное произведение. Они также могут быть применены к данным опросов, что делает их очень простым, но эффективным способом показать пользователям ключевые понятия или ощущения, связанные с заданным вопросом.

Таким образом, их эффективность связана с многофункциональностью и определением ключевых или наиболее значимых слов во всём, что содержит текст: метаданных, романах, докладах, анкетах, эссе или исторических записях.

В интернете есть много простых генераторов облака слов, где вы можете поиграть со шрифтами, макетами и цветовыми схемами. Они гораздо более привлекательно выглядят, чем упорядоченные списки. Обратитесь к ним при подготовке своей следующей презентации: вы удивитесь тому, как легко окажется запустить дискуссию.

Наука о данных значительно облегчила компаниям доступ к средствам массовой информации и их анализ. Большинство владельцев бизнеса и маркетологов знакомы с SurveyMonkey — онлайн-провайдером бесплатных анкет, который обрабатывает сведения, полученные из опросов, с помощью своих инструментов анализа данных.

Пользователи получают доступ к потребительским данным в режиме реального времени, а ответы из анкет участников визуализируются в виде простой графики и пользовательского дашборда. На момент написания этой книги компания может предоставлять результаты в режиме реального времени, составлять пользовательские отчеты в виде диаграмм и графиков, осуществлять фильтрацию данных, выявляя демографические тенденции, а также проводить текстовый анализ, давая пользователям наиболее релевантные текстовые данные из опросов в виде облака слов.

Морозным февральским утром, задолго до того, как проснулся любой здравомыслящий человек, мне позвонили из полиции Квинсленда. Всё ещё сонный и едва ворочая языком, я пробормотал: «Да, я Кирилл Еременко; да, я нахожусь у себя дома в Брисбене; да, у моего байка тот номерной знак, который мне сейчас зачитали. Так в чем проблема?»

Меня спросили, пользовался ли кто-нибудь, кроме меня, моим мотоциклом и знаю ли я, где он находится. Последний вопрос вернул меня в сознание и заставил слететь с лестницы в гараж. С облегчением я убедился, что предмет моей гордости и радости всё ещё там.

Но оставался вопрос: если все, о чем они меня спрашивали (а они спрашивали и обо мне), находилось на своем месте, то какое дело было полиции до всех этих подробностей? Они сказали, что заметили мотоцикл с моим номерным знаком, скрывающийся от полиции в Голд-Косте, пляжном городке недалеко от Брисбена.

Учитывая, что мой мотоцикл был на месте, они предположили, что номерной знак, должно быть, подделали, — и позже обнаружилось, что так оно и было. Представьте на мгновение, что мой байк действительно украли. Как бы я смог доказать, что это не я скрывался от сотрудников правоохранительных органов?

В ту ночь я был один, и про алиби не могло быть и речи. С точки зрения полиции, это, безусловно, мог быть я, особенно принимая во внимание, насколько трудно подделать номерной знак в такой стране, как Австралия, где подобные вещи жестко контролируются.

Даже несмотря на то, что в начале разговора я не знал, был ли мой мотоцикл украден, я понял, что меня совсем, даже на секунду, не беспокоил вопрос алиби во время этого телефонного допроса, потому что я знал, что не сделал ничего плохого.

Я не сомневался, что технологии послужат мне как свидетели. Большую часть времени я ношу с собой телефон, заряжаю его рядом с кроватью, и любые действия, которые я выполняю с ним, регистрируются.

Это напомнило мне, как в Deloitte я работал в отделе финансовых расследований (форензик). Мы разбирали бесчисленные ситуации, когда люди утверждали, будто они делали что-то или находились в определенном месте, но их телефоны рассказывали совсем другую историю.

Эти записи использовались в качестве доказательств, потому что данные, полученные благодаря мобильным устройствам, камерам видеонаблюдения и тому подобному, не лгут. Дело в том, что данные могут помочь. Они могут служить вашим алиби. Они могут выступать в качестве доказательства по уголовным делам.

Многие считают, что данные могут только навредить, — но вы не слишком далеко продвинетесь в нашей дисциплине, если будете думать о себе как о злодее. Небольшое изменение в том, как вы рассматриваете науку о данных и её функции, побудит вас искать новые способы совершенствования своей трудовой деятельности с помощью данных, вместо того чтобы чувствовать, что нужно доказывать свою профессиональную состоятельность коллегам.

Мы знаем, что данные могут причинить вред, о чём свидетельствует бум конференций и учреждений, занимающихся изучением последствий технологического развития для этики и кодексов поведения человека.

Кто имеет доступ к нашим данным? Должен ли вообще существовать доступ к ним? Как мы видели, данные открывают перед нами новые способы работы, жизни, исследований, ведения войны — и делают это с невероятной скоростью.

Возьмём 3D-печать. По мере снижения стоимости разработки таких принтеров число людей, имеющих доступ к новой технологии, будет увеличиваться. Коммерческие 3D-принтеры в настоящее время производят игрушки и игры, но они также могут печатать любое количество потенциально опасных предметов — нужна только модель данных.

Одного этого, безусловно, достаточно, чтобы вызвать обеспокоенность, особенно с учетом непропорцио нально высоких темпов технологического развития и нашей неспособности принимать законы и обеспечивать защиту от негативных последствий. Сможем ли мы когда-нибудь надеяться на то, что будем поспевать за таким быстрым темпом перемен?

Один из самых острых вопросов в дискуссии вокруг технологий и этики связан с границами доступа машин к информации (Mulgan, 2016).

По мере того как возможности роботов в обработке данных увеличиваются, машины скоро будут способны регулировать информацию способом, существенно превышающим возможности человека. Информация всех видов становится оцифрованной.

Хранение её в цифровом, а не физическом формате превращается в норму. Исторические артефакты оцифрованы, книги и журналы доступны в интернете, а личные фотографии загружаются в социальные облака. В конце концов, информация намного сохраннее, когда находится в электронном виде: она не боится времени, её можно копировать, а контент — выложить для общего пользования и установить связи между соответствующими элементами.

Конечно, цифровые данные не полностью защищены от повреждений. Они могут пострадать или потеряться, но в итоге менее подвержены порче, чем данные, которые хранятся только в материальном виде. Тот факт, что в интернете так много информации — как по охвату, так и по глубине, увеличивает потенциал машин, которые имеют доступ к этим данным, и расширяет разрыв между возможностями человека и компьютера.

Компьютеры не достигли пределов своих возможностей в обработке данных — но мы достигли. Машины ждут только трёх вещей: доступа к данным, доступа к более быстрому оборудованию и доступа к более продвинутым алгоритмам. Когда эти три условия будут соблюдены, польза и вред от машин, которые могут регулировать количество доступных им данных, станут только делом времени.

И это уже закладывает основы для мощного оружия, будь то анализ поведения в интернете или маскировка под человека на сайтах социальных сетей в целях пропаганды. Если верить футурологу Рэймонду Курцвейлу, предсказавшему, что к 2029 году компьютер пройдет тест Тьюринга, то предоставление машинам неограниченного доступа в интернет может сделать доступ к данным самым мощным инструментом манипуляций.

Мы должны также понимать, что заботы одного поколения необязательно станут заботами другого. Если мы беспокоимся о том, как информация о нас собирается, хранится и используется, то, вероятно, это не будет иметь значения для молодого поколения, выросшего с этой технологией.

Изменение нашего взгляда на то, что мы считаем нормой, отражается в нашем подходе к сбору и обработке данных. Рассмотрим случай хранения cookie-файлов в интернете. Многие сайты предпочитают собирать данные от пользователей. Эти данные называются файлами cookie.

Информация записывается в файл, который хранится на компьютере пользователя и открывается при каждом следующем посещении сайта. Файл cookie может содержать имя пользователя, адреса посещенных сайтов и даже рекламу сторонних ресурсов — все это помогает сайту адаптироваться к потребностям посетителей.

Вам может показаться знакомым следующее заявление: «Чтобы этот сайт работал должным образом, мы иногда размещаем небольшие файлы данных, называемые cookie, на вашем устройстве. Большинство крупных сайтов поступают так же».

Это уведомление Европейской комиссии (EC), которая постановила, чтобы каждый европейский сайт, использующий файлы cookie, сообщал посредством всплывающего окна или иным образом, что он записывает данные пользователя.

Те, кто желает продолжать пользоваться сайтом, могут либо сразу согласиться, либо узнать больше, прежде чем принять эти условия (но возможны исключения. Руководство поставщика информации о том, как подготовить согласие пользователя на веб-сайтах, доступно на сайте Европейской комиссии).

Закон был принят в то время, когда люди были обеспокоены тем, что их конфиденциальность нарушается компаниями, использующими файлы cookie для отслеживания просмотренных страниц, взаимодействий и многого другого.

С тех пор тревоги, связанные с этическим аспектом использования cookie, медленно, но верно улеглись. Никого больше не пугают файлы cookie, и уж точно — не миллениалов: мы привыкли к этим файлам как к неотъемлемой части нашей онлайн-жизни.

Другими словами, озабоченность по поводу файлов cookie снизилась, и поэтому требование, чтобы на сайтах компаний содержалось четкое предупреждение о сборе данных, касающихся пользователей, будет постепенно отменяться с начала 2018 года.

Хотя пока что сайты уведомляют о том, что используют файлы cookie. Нельзя сказать, что законодательство в области сбора и хранения данных либерализуется, — наоборот, в ЕС был принят Общий регламент по защите данных (GDPR), обязывающий интернет-ресурсы в подробностях сообщать, какую информацию они собирают и хранят.

Сookie — это один из примеров того, как сбор данных становится частью нашего общества. То, как большинство миллениалов используют социальные сети — например, свободно выражая своё мнение, общаясь в чате, загружая свои фотографии, отмечая друзей, — должно показать, что их мир обособлен от мира беби-бумеров и они иначе (как правило) ведут себя в интернете.

Я не считаю этические соображения просто неудобными препятствиями, которые аналитик данных может предпочесть игнорировать. Но я задаю вопрос читателю: действительно ли мы должны подавлять развитие технологий, исходя из наших сегодняшних опасений? Или же нам следует стремиться к установлению баланса между темпами технологического роста и темпами разработки соответствующих этических принципов?

Возвращаясь домой после вечера, проведенного в центре Брисбена, я невольно оказался втянут в горячий разговор с таксистом. Он, по-видимому, негативно воспринял информацию о том, что я работаю аналитиком данных, и обвиняющим тоном заговорил о неблагоприятных для будущего последствиях моей деятельности.

Опасаясь худшего, таксист жестом указал на ночное небо и спросил меня или небеса: «Почему бы просто не остановиться там, где мы находимся, прямо сейчас?» Это просто невозможно.

В нашей природе заложено стремление исследовать мир и продолжать расширять свои горизонты. Для взволнованного таксиста было естественно переживать по поводу того, как данные и алгоритмы их обработки станут использоваться в перспективе.

Но тревога о том, что может произойти или не произойти, будет только сдерживать нас — пагубный сценарий, особенно с учетом того, что, пока мы паникуем, технологии продолжат развиваться.

#библиотека

15 комментариев

Птиц

12.06.2019

После прочтения в голове не осело ничего полезного. Судя по названию книги ожидаешь руководство, а получаешь размышления на тему. Хотелось бы ошибаться.

Ответить

Вася Михеев

13.06.2019

И ладно бы это был тупой перевод зарубежного автора (их стиль), так это соотечественник ересь несет.

Илья Петровский

А что бы вы порекомендовали в этой сфере?

Pavel Zamyatin

В принципе, если смог извлечь хоть какие то данные из этой воды - уже сойдешь за младшего дата аналитика, можно брать.

Yuriy Yuriy

Правильное место, для того чтобы начать повышать свои знания, это работа в коллективе людей, которые знают все тонкости дата-аналитики ;) Можно начать с минимальной зарплаты, ведь вы же получаете знания ;)