Обучение алгоритмов на видео с Mannequin Challenge и историях болезней китайских фермеров: где берут данные ИТ-компании

Неочевидные способы тренировки моделей ИИ от Google, Microsoft, IBM и других.

Приложение Flo Period & Ovulation Tracker, которое делилось данными с Facebook

В феврале 2019 года издание The Wall Street Journal обнаружило, что 11 финансовых, спортивных и медицинских приложений без разрешения пользователей делятся с Facebook их личными данными в обмен на аналитические отчёты для улучшения интерфейсов и работы.

Спустя два месяца Bloomberg написало о сотрудниках Amazon, которые без ведома владельцев устройств прослушивают аудио, записанное «умной» колонкой Echo.

В обоих случаях пользовательские данные использовались для обучения нейросетей: Facebook повышала эффективность алгоритмов поиска и таргетированной рекламы, а Amazon обучала голосового ассистента Alexa.

И хотя обычно в политике конфиденциальности сообщается, как и зачем сервисы используют пользовательские данные, некоторые компании умалчивают, что делятся этой информацией с партнёрами. Или не обозначают ясно, что именно они будут делать с информацией, полученной от пользователей. А у некоторых и вовсе нет политики конфиденциальности.

Ниже — восемь необычных способов, к которым прибегали компании, чтобы получить пользовательские данные.

Медицинский стартап из Китая WeDoctor собирал данные о здоровье жителей местных деревень для тренировки искусственного интеллекта.

Wired утверждает, что сами жители об этом ничего не знали. Они приходили в мобильную клинику WeDoctor для обследования (например, сделать ЭКГ и измерить кровяное давление). Осмотры в клиниках WeDoctor были бесплатными, в отличие от городских госпиталей.

По данным издания, стартап заключил соглашение с правительством и запустил пилотный проект в уезде Цзясян. Все данные, полученные в ходе обследования, сохранялись на облачных хранилищах WeDoctor.

Затем эти сведения обрабатывали программы искусственного интеллекта, в том числе «вспомогательная система лечения общей практики». Благодаря ей пациенты могут просто указать симптомы, а система предложит несколько вариантов диагноза. Создатели утверждают, что результат оказывается точным в 90% случаев.

Представители стартапа рассказывают, что собранные WeDoctor данные доступны и для регионального правительства. Но не все: чиновники могут видеть только номер телефона, привязанный к идентификационному номеру, адрес и сведения о заболевании.

Несмотря на то что WeDoctor собирал и анализировал конфиденциальные сведения о здоровье пациентов, живших в деревнях, Wired подчёркивает: никто из персонала не упоминал компанию во время обследования.

В отличие от человеческого мозга, нейросети плохо справляются с интерпретацией видео, — пишет издание MIT Technology Review, — чтобы научиться оценивать глубину кадра, расстояние между объектами и другие параметры, им нужна тренировка на подходящем наборе данных.

В качестве источника команда Google AI использовала 2 тысячи роликов, которые публиковали участники популярного в 2016 году флешмоба «Mannequin Challenge».

На видео люди замирали в разнообразных позах, а оператор обходил их и снимал с разных углов. Исследователи разбили видео на отдельные кадры, разметили их глубину и использовали набор для обучения нейросети.

Благодаря этому она стала точнее определять глубину кадра с движущимися объектами на видео — что в свою очередь поможет разработчикам ПО для самоуправляемых автомобилей и других устройств.

В мае 2019 года издание Financial Times рассказало о преподавателе Университета Колорадо, который установил камеру на здании кампуса в Колорадо-Спрингс и получил снимки 1732 человек, большинство из которых были студенты, — без их разрешения. Всего в базе было 16 149 изображений.

По данным издания, это камера снимала людей на территории кампуса во время семестра 2012–2013 годов и работала 20 дней. Эксперимент, в частности, предназначался для того, чтобы обучить алгоритмы распознаванию лица на большом расстоянии.

Камера была расположена на расстоянии 150 метров от места, где фотографировали студентов. Она была запрограммирована снимать их в определённое время — на переменах, — так камере удавалось зафиксировать большее количество людей.

Обучение алгоритмов на видео с Mannequin Challenge и историях болезней китайских фермеров: где берут данные ИТ-компании

После того как исследователи собрали все фотографии студентов, они получили один из самых разнообразных наборов изображений.

При этом в нём были менее детализированные снимки, что могло помочь натренировать алгоритмы для более эффективного распознавания удалённых объектов. Например, военным — чтобы системы лучше различали — союзная или вражеская техника показалась на горизонте.

Профессор Терранс Болт, руководивший исследованием, заявил, что нет ничего противозаконного в том, чтобы снимать людей в общественных местах. По его словам, проект был согласован с руководством. Он также отметил: в базе данных нет имён студентов, а военные получили к ней доступ только после того, как ученики закончили университет.

По данным издания Colorado Springs Independent, создание базы спонсировали военные структуры США и агентства разведки, так как правительство обычно оплачивает подобные исследования на территории университетов. Проект MegaPixels опубликовал список организаций, финансировавших исследования.

Однако сам Болт заявил исследовательскому MegaPixels, что федеральные агентства не использовали базу изображений. По данным проекта, полученный набор данных использовали в США, Великобритании и Китае.

В 2017 году производитель «умных» телевизоров Vizio заплатил штраф $2,2 млн после того, как Федеральная торговая комиссия США обвинила компанию в слежке за 11 млн пользователей.

Представители Комиссии объяснили, что Vizio не спрашивала разрешения покупателей на сбор персональной информации. При этом компания посекундно отслеживала все взаимодействия пользователя с телевизором, следила за тем, что он смотрит на кабельном и центральном телевидении, а также какими стриминговыми сервисами пользуется.

Кроме того, Vizio продавала сервисам, рекламодателям и сайтам-агрегаторам пользовательские данные: пол, местоположение, возраст, семейное положение, образование и так далее.

Приватную информацию производитель собирал с помощью функции Smart Interactivity, которая отображала рекомендации и подбирала контент для пользователя. Однако покупатели не знали, что использование этой функции подразумевает сбор и продажу их персональных данных.

В ходе разбирательств выяснилось, что пользователи не получали никаких рекомендаций около двух лет. Производитель же добавил функцию даже в старые партии телевизоров, где её не было изначально.

Компания не признала обвинений в свой адрес. Вместе с выплатой штрафа Vizio обязали удалить собранные данные.

Во время тура Reputation Тейлор Свифт на одном из концертов в Калифорнии использовалась система распознавания лиц компании ISM Connect для обнаружения преследователей певицы, которые могли причинить ей вред.

По данным Guardian, камеры для распознавания лиц были вмонтированы в терминалы, где поклонникам показывали видео с исполнительницей. В момент, когда они смотрели ролик, скрытая камера сканировала лицо, делала снимок и сохраняла изображение.

The Guardian указала, что на сайте ISM Connect было опубликовано несколько статей о работе терминалов, однако позже они были удалены. При этом компания упоминает, что для взаимодействия с фанатами на концертах установили систему Selfie Countdown, с помощью которой поклонники делали селфи и накладывали на фото изображение самой Свифт. В описании системы не указано, что лица пользователей анализировали «умные» камеры.

Представитель ISM Connect также рассказал Gizmodo, что на шоу Свифт используется система FanGuard. У каждого входа на площадки, где выступала певица, были установлены большие экраны с камерой. Они устроены таким образом, чтобы идентифицировать только подозрительных по данным системы посетителей.

Такими «подозрительными посетителями» могут быть как преследователи самой Тейлор Свифт, так и те, кто может представлять опасность для посетителей концерта. Система устанавливает личность людей и обеспечивает безопасность на мероприятиях.

Крупные мероприятия, которые обслуживает компания ISM

На сайте ISM сообщается, что экраны с «умными» камерами отслеживают показатели вовлечения и демографические данные посетителей мероприятий. Эту информацию передают организаторам мероприятий — для более эффективного взаимодействия посетителей мероприятий с площадками и брендами, которые рекламируют вовремя концертов и матчей. Кроме того, компания утверждает, система помогает усилить безопасность на площадках и, например, помочь в поисках потерявшихся во время мероприятия детей.

«Умные» экраны ISM Connect устанавливают на стадионах, где проходят крупные бейсбольные матчи, на крупных конференциях и на гонках NASCAR.

Проморолик компании ISM Connect

Журнал Rolling Stone писал, что полученные изображения ISM передаёт посту управления в Нэшвилле, где их сверяют с базой сотни сталкеров поп-звёзд.

Со времени обнародования информации представители Тейлор Свифт так и не рассказали о том, как они используют собранную благодаря системе слежения информацию.

Приложение Ever помогает пользователем группировать снимки, объединять их в тематические альбомы и обмениваться ими с близкими и друзьями. В мае 2019 года телеканал NBC обнаружил, что разработчики использовали загруженные пользователями снимки для тренировки своего алгоритма по распознаванию лиц.

Основатель разработавшей приложение компании Ever AI Дуг Эйли заявил, что пользователи были в курсе использования их личных фотографий для тренировки искусственного интеллекта, потому что это оговорено в политике конфиденциальности приложения Ever.

При этом на сайте Ever AI говорится лишь о том, что компания владеет одной из крупнейших и разнообразных баз данных в мире, но что все изображения базы принадлежат пользователям — не упоминается.

Журналисты поговорили с несколькими пользователями приложения — ни один не знал, как разработчики распоряжаются их снимками. Кроме того, ряд пользователей жаловался на то, что приложение рассылает рекламу их контактам. За агрессивную маркетинговую кампанию Ever временно удалили из App Store.

Кроме того, фото пользователей для тренировки алгоритмов собирало ещё одно популярное приложение RealTimes, в котором можно создавать видеоролики из снимков. Компания RealNetworks, создающая систему распознавания лиц для школ, также подтвердила, что использовала для развития алгоритмов данные RealTimes. Однако компания подчеркнула, что для системы слежения используются фото и видео из разных источников, а не только из приложения.

Оба приложения всё ещё доступны для скачивания, никто из пользователей не подал на разработчиков в суд.

В 2016 году Microsoft опубликовала базу MS Celeb, в которой содержалось более 10 млн снимков 100 тысяч людей. На момент создания это была крупнейшая база изображений для тренировки системы распознавания лиц и нейросетей.

Изначально предполагалось, что в ней содержатся только снимки знаменитостей. Однако позже выяснилось, в базе есть много фото людей, которые не были публичными фигурами и не давали разрешения на их использование. В частности, туда попали снимки журналистов, исследователей и активистов, которые не знали, что их изображения используют. Снимки для базы собирали с помощью популярных поисковых систем.

Несмотря на то что Microsoft заявляла, что база не будет использоваться в коммерческих целях, издание Financial Times обратило внимание на то, что массив данных скачали крупные компании: IBM, Panasonic, Canon, Alibaba, Hitachi и Nvidia, а также SenseTime and Megvii.

Последние две компании, по данным журналистов, создают программное обеспечение для правительства Синьцзян-Уйгурского автономного района, где систему распознавания лиц задействуют для арестов представителей национальных меньшинств — мусульман и уйгуров.

Исследователи составили карту с указаниями, какие организации использовали базу и с какими целями — военными, коммерческими или академическими. Согласно данным, из всех воспользовавшихся компаний 85,9% — академические, 12,3% — коммерческие, 3% — военные и государственные.

График, который показывает, какие страны использовали базу MS Celebs Megapixels

И хотя Microsoft удалила базу MS Celebs, однако ей всё равно можно воспользоваться: она доступна на торрентах, а также на GitHub. Компания объяснила удаление базы корпоративным протоколом. Microsoft заявила, что набор данных предназначался для академических целей, а сотрудник, который его запустил, покинул компанию.

Похожая ситуация сложилась и с IBM. В марте этого года телеканал NBC сообщил: компания создала базу с миллионом изображений лиц людей для тренировки системы распознавания лиц. Часть этих изображений компания взяла у Flickr.

При этом фотографам и их моделям не сообщили, что снимки попадут к сторонней компании для тренировки алгоритмов распознавания лиц. IBM подчеркнула, что любой желающий может попросить удалить их своё фото из базы. Однако NBC выяснил, что на самом деле это не так просто: фотографы должны указать ссылку на снимок, но IBM в публичный доступ базу изображений не выкладывала.

#нейросети #персональныеданные

Обучение алгоритмов на видео с Mannequin Challenge и историях болезней китайских фермеров: где берут данные ИТ-компании

Китайский стартап бесплатно лечил деревенских жителей, чтобы обучить алгоритм лучше распознавать диагноз

Команда Google AI проанализировала тысячи видео с флешмобом Mannequin Challenge для тренировки нейросети

Учёный без разрешения собирал снимки студентов, чтобы улучшить алгоритмы компьютерного зрения

«Умные» телевизоры подсматривали за пользователями и записывали информацию о доходе и образовании

Компания ISM Connect тайно фотографировала лица посетителей мероприятий, чтобы собрать аналитику для организаторов

Фото- и видеоредакторы заимствовали снимки пользователей для тренировки системы распознавания лиц

Microsoft и другие компании использовали огромные базы данных с фото людей для тренировки ИИ — удалить фото затруднительно