Инженеры из университета в Чикаго создали сервис для защиты фотографий от распознавания лиц — он уже «обманул» Amazon Материал редакции

Они рассчитывают, что пользователи массово начнут менять фотографии перед загрузкой в сеть, чтобы «отравить» базы данных систем распознавания.

В закладки
Слушать

Компьютерные инженеры из Чикагского университета разработали инструмент Fawkes, который маскирует фотографии для защиты от систем распознавания лиц, сообщает The New York Times.

Для этого Fawkes меняет — или «маскирует», как говорят создатели инструмента — изображение на уровне пикселей, объясняет издание. За месяц программное обеспечение скачали больше 50 тысяч раз с сайта для разработчиков.

The New York Times

В ходе испытаний исследователи смогли обмануть системы распознавания лиц от Amazon, Microsoft и китайской технологической компании Megvii. Однако изменения видны невооружённым глазом, утверждает The New York Times.

Слева — оригинальная фотография редактора The New York Times, справа — «замаскированная» версия The New York Times

Сейчас исследователи работают над бесплатной версией для пользователей без навыков программирования, пишет издание.

Приложение предназначено для широкого пользования, чтобы «отравить точность» баз данных, собираемых системами распознавания лиц в интернете, говорят создатели.

Исследователи рассчитывают, что в идеале люди начнут маскировать все загружаемые в интернет изображения. Тогда компании вроде Clearview не смогут создавать работоспособную базу данных, потому что реальная фотография человека не будет соответствовать образцу в «отравленной» базе.

«Наша цель — заставить Clearview уйти», — заявил Бен Чжао, профессор информатики в Чикагском университете.

Стартап Clearview AI собирает «миллиарды» фотографий в интернете для создания базы, которую используют частные компании, полиция и другие организации, напоминает издание.

{ "author_name": "Лиана Липанова", "author_type": "editor", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435\u043b\u0438\u0446","\u043d\u043e\u0432\u043e\u0441\u0442\u044c","\u043d\u043e\u0432\u043e\u0441\u0442\u0438"], "comments": 72, "likes": 103, "favorites": 160, "is_advertisement": false, "subsite_label": "services", "id": 147305, "is_wide": false, "is_ugc": false, "date": "Mon, 03 Aug 2020 21:15:13 +0300", "is_special": false }
0
72 комментария
Популярные
По порядку
Написать комментарий...
76

Прекрасно
Новый софт, который маскирует незначительные признаки, но оставляет важные признаки, по которым люди узнают людей.
Он прекрасно пополнит базы для обучения ML моделей, чтобы они стали еще лучше работать.

Ответить
20

Нет. Одна из фич таких вот решений (это, к слову, не первое) в том, что полученные результаты непригодны для обучения моделей. Можно хоть миллион модифицированных вариантов одного человека засунуть и всё равно машина не сможет узнавать этого человека на миллион первом варианте. В этом и прелесть.
То есть изменённые варианты просто непригодны для обучения. Более того, они будут только ухудшать детект! То есть будут _отравлять_ датасет.

ОДНАКО! Нужно понимать, что речь идёт именно о распознавании конкретных людей. Если же просто сравнивать оригинальное изображение и найти его отравленную копию (как тот же VisiPics) — тут проблем никаких не будет. Но такой задачи и не стоит.

Ответить
9

ML/DL сейчас достигло уже такого уровня развития, когда невозможно гарантировать, что алгоритмы справятся с распознованием лиц хуже людей. Если ты нашел общие признаки и распознал одного человека на двух фото, это сможет сделать и модель. Без вариантов.

Поэтому работы вроде описанной выше могут быть полезны лишь в частной практике, когда относительно небольшое число людей использует его, чтобы скрыть себя в более крупной базе пользователей от вполне конкретного сервиса. Панацеей от алгоритмов распознавания это не станет.
Интернет сближает людей, OSINT делает информацию еще доступнее. Поэтому это скорее выбор человека между полной публичностью и полной скрытностью

Ответить
1

Именно _сейчас_ проблема, которую эксплуатирует решение из статьи, относится к фундаментальным. В будущем ждём новые подходы, лишённые этой проблемы, но _сейчас_, в текущем развитии (а также все десятилетия до сейчас), это решение является серебряной пулей.

Ответить
1

Не является и не может являться серебрянной пулей. Готов поспорить, что обучение моделей распознавания на датасете со скрытыми фотографиями даже без изменения конфигурации модели даст хороший результат. Характерные признаки лица по которым можно определить человека остаются - все остальное лишь шум, который нужно научиться фильтровать. И нет никаких фундаментальных оснований у тезиса, что такое решение возможно будет применять как "серебрянную пулю". 

Ответить
1

Фундаментальное основание — это сам принцип работы.

Ещё раз. Нет задачи скрыть человека на фотографии. Даже ваша тупая мыльница из начала двухтысячных справится с этим в реальном времени.
Здесь речь о том, что в найденном человеке не удаётся распознать конкретного человека. Нельзя распознать, что это конкретно Вася. Модель обучена на огномном количестве изображений Васи, но не может понять, что это Вася, когда натыкается на cloacked фото. А если начать обучать её на созданных cloacked, то это сильно ухудшит работу модели и она начнёт видеть Васю в фотографиях жопы её создателя ("отравлена").

Когда придумают другие принципы работы, этот способ умрёт. Но на сегодня в публичном доступе нет иного подхода.

Ответить
2

Принцип работы - не может быть фундаментальным основанием в данном случае😂
Ты, как человек, все еще идентифицируешь человека. Но почему-то считаешь, что модель не сможет. Почему ты можешь, а она нет? Именно на этот вопрос должно дать ответ то самое фундаментальное основание) ведь ты не обращаешь внимания на те пикселы, значит есть возможность отфильтровать эти пикселы еще до входа в саму модель. Я более чем уверен, что достаточно будет загрубить качество фото, уменьшив количество цветов и разрешение и этот метод уже значительно потеряет в эффективности.

К слову, на этот вопрос нет ответа в абстракте той статьи, скорее всего и не будет в самой статье. А сам абстракт, да, очень смелый)

Ответить
2

Потому что мы абсолютно по-разному считываем и обрабатываем данные, вот почему.

Ответить
0

Как считываются данные - несущественно. В объективном мире есть объекта А (пара фотографий), обработчики B1(человек) и B2(модель)  и результаты C1 и С2.
Проводим 2 эксперимента A>B1>C1 и A>B2>C2, в которых оба обработчика способны получить информацию в полном виде или с некоторыми шумами/искажениями.
Достоверно известно, что обработчик 1 может получить положительный результат без предварительного обучения вообще. Тогда почему обработчик 2 не может?
Если разницу в функционале или природе обработчиков вы считаете достаточным основанием, то вы просто не верите в МЛ/ДЛ вообще, потому что задача распознования изображения ничем не отличается от приведенной выше. И она решена.
Ну а если углубиться в основы работы различных алгоритмов МЛ/ДЛ, то станет понятно, что они как-бы и созданы для решения таких нетривиальных задач.

Ответить
0

Важно то, что восприятие нейронных сетей не равно человеческому. Возможно подобрать рандомную картинку, которую сеть будет воспринимать как что-то конкретное с большой вероятностью, но что для человека будет выглядеть белым шумом.
Но если вы говорите глобально с заделом на далекое будущее, то вопросов нет

Ответить
1

Если же просто сравнивать оригинальное изображение и найти его отравленную копию (как тот же VisiPics) — тут проблем никаких не будет

А, ну так достаточно взять датасет лиц (назовём его "исходным"), прогнать его через эту штуку. И всё, учи себе сеточку, которая сможет обходить эту защиту. По аналогии с автоэнкодером, который шум должен убирать.

Ответить
0

Ты или не прочитал, или не понял. Если ты возьмёшь датасет с лицом Васи, но прогнанными через эту прогу, то получишь абсолютный мусор. Твоя сеточка будет видеть Васю в бензиновых плёнках на луже, но не будет его узнавать на обычных изображениях и видео.

Ответить
0

Всё так. Не читал пока, сорри. Просто предположил, что вот так можно.

Ответить
0

Да, фактически сейчас это атака на определенную архитектуру сетей, либо класс архитектур. Для всех сетей на этом принципе она будет эффективной и действительно только портить датасеты.
Но люди то на этих фотографиях людей узнают. Алгоритм маскирует признаки, важные для этих моделей и не важные для людей. Это значит, что общие признаки есть, их можно найти и такие датасеты помогут в тренировке таких "человекочитаемых" ML моделей. Более того, искуственный шум поможет как раз сосредоточиться на "важных" признаках и игнорировать "не важные" с точки зрения восприятия человека.
Если "замаскировать" эти признаки - то одного человека на фотографии перестанет распознавать уже любой человек, что сделает бесполезной маскировку.

Ответить
0

_Вот прямо сейчас_ реализация такова, что защита эффективна. Когда и если смогут сделать другую, тогда и защита будет другой.

Ну а люди нифига не эффективно распознают людей. Смотришь на человека на фотографиях, на сотни его фотографий. А в жизни он выглядит иначе.

Ответить
0

Вот тут да, за счет маскируемых признаков, которые не различали люди, сетки могли узнавать их лучше самих людей.

Ответить
2

Лучше они работать не станут. Это игра в кошки-мышки. Зная архитектуру сети которая занимается распознаванием лица, делается сеть, которая "атакует" (изменяет) фотографии так, чтобы сеть-детектор не могла качественно распознать человека.

https://arxiv.org/abs/1412.6572

Вот статья аж от 2014 года от небезывестного Гудфеллоу. С тех пор воз примерно там же (на уровне дополнительных эвристик). 

Ответить
3

У нас тут сейчас эпоха где лицо синтезировать из камушка можно, мне кажется несколько алгоритмов обойдут эту защиту, был бы смысл

Ответить
0

Разумеется.
Но логическое завершение этой игры - приход к такому состоянию, когда нейросеть сравнивает те же признаки, которые сравнивают люди.
Если начать их маскировать - эти фотографии перестанут узнавать люди, соответственно потеряется всякий смысл.
Да, фактически сейчас это атака на определенную архитектуру сетей, либо класс архитектур.

Ответить
2

Как раз пришел сюда это написать, если все начнут его использовать, его смысл исчезнет ¯\_(ツ)_/¯

Ответить
0

Можешь объяснить, что именно она делает языком математики? Я пойму.

Ответить
4

Я, к сожалению, не специалист, знаю только общие принципы.
К тому же у нейросетей есть разные архитектуры.
Но попробуем.

Для обработки изображений в базовом варианте обычно используются сверточные нейронные сети.
Работают так - есть ряд масок (3*3/5*5), в которых закодированы различные признаки (например, что эта область - цвета кожи - все пиксели одного цвета, либо что эта область - граница темного и светлого, где темное - снизу)
Маски проводят по всему изображению (по каждому пикселю и соседним) и получают несколько новых изображений, условно "маска вертикальных краев", "маска тонких горизонтальных линий", "маска областей цвета кожи", "маска областей цвета волос". Так как маски генерируются автоматически в процессе обучения, сказать что там внутри наверняка бывает крайне сложно.
Из этих масок получают другие маски, меньшего разрешения, но хранящие более сложные признаки. Условно если в определенной области есть цвет кожи, а в области выше - граница, а еще выше - цвет волос, то с большой вероятностью это лоб. А если область имеет типичный цвет глаз, а вокруг - границы сложной формы - весьма вероятно, что это глаз. Эта сеть по сути в своих коэффициентах хранит статистическую значимость различных признаков в изображении и умеет их выделять. На выход подаются маски со сложными признаками, условно "носастость", "глазастость", "скуластость", "волосатость". Опять же, внутри тяжело сказать точно, что происходит, потому что коэффициенты получены автоматически на обучении на куче картинок, где сеть сама находила, что вот эти наборы признаков - важны, потому что повторяются в куче картинок, а вот эти - не важны, потому что на разных картинках разные.
После этого на этих масках (их тоже часто еще как то обрабатывают - уменьшают по разнешению, режут, смешивают признаки и т.д) работает уже полносвязная нейронная сеть/сети - на вход подаются все пиксели масок признаков, на выходе - подсвеченные признаки.
Примерно так работают сети, определяющие наличие на картинке лица и, к примеру, определяющие позицию глаз на них.
К стыду своему не знаю, как именно работают сети, которые ищут похожих людей, но подозреваю, что они просто находят на фотке точный овал лица, а потом находят на нем кучу коэффициентов, которые характерны для этого лица.
И у одного человека эти коэффициенты очень близки, у разных - различны (а на сотне коэффициентов даже с семимиллиардным населением земли у каждого непохожего человека будут разные коэффициенты)
Остается только найти все фотки, у которых коэффициенты совпадают на определенный пороговый %

В ходе обучения сеть ориентируется не на те признаки, которые для нас важны, а на те, которые сама статистически получила важными. Они могут быть очень специфическими. Зная, как работают маски низкого уровня, можно добавлять специальный шум, который сильно портит базовые маски признаков, из них, соответственно, тяжело вытащить последующие признаки и собрать финальный результат. Естественно это работает только для таких видов шума, которые заметны сетям и не заметны нам (иначе мы тоже будем видеть этот шум и фотка будет испорченной). И для определенных алгоритмов, популярных сейчас.
Если модифицировать сетки на другие алгоритмы и обучить с учетом вот таких шумов - они найдут другие признаки и обучатся на них. Чтобы испортить уже их, нужно будет исказить фотографию так, чтобы ее не мог узнать и человек.

Ответить
3

http://people.cs.uchicago.edu/%7Eravenben/publications/pdf/fawkes-usenix20.pdf

Добавляет наборы пикселей, которые считаются характерными признаками и начинают учитываться при распознавании. А так так как отличить пиксели "честные" от добавленных нельзя, то и игнорировать их не получится.

Ответить
64

Fawkes меняет — или «маскирует», как говорят создатели инструмента — изображение на уровне пикселей

Ответить
7

Даже VC согласен:

Ответить
13

Уведомления прочитай

Ответить
0

скажи?

Ответить
2

Это товарищ майор радуется)

Ответить
0

Женщина Путин похожа на барби

Ответить
1

Комментарий удален по просьбе пользователя

Ответить
1

Обнулил бы ей?

Ответить
0

На Перис Хилтон

Ответить
0

Ну так а пэрис сама на кого

Ответить
15

Крутой софт

Ответить
2

Это не работает. Рассчитано глушить какую-то одну конкретную нейросеточку.

Ответить
12

Игрались с коллегой с этой софтиной, но всегда получались абсолютно странные фото, как будто ты или бухой или под наркотой... Плюс странная история с бровями

Ответить
3

Посмотри на себя как будто ты бухой или под наркотой. Новые всратые масочки для Инстаграм 

Ответить
7

Хммм, патентую сервис для исправления бухих фото. На всех вечеринках вконтакте все в дрова, а ты - ни в одном глазу

Ответить
4

Вывод: не стоит играться с этой софтиной будучи бухим и под наркотой.

Ответить
0

Страшно представить, что ТОГДА получится в этом приложении 😂😂😂

Ответить
1

Да даже на примерах в статье видно. что фото значительно меняется. Особенно первый ряд - лицо будто стало шире  квадратнее, что-ли.
Дерьмо, а не софт. Там не пара пикселей - а совсем другой человек выходит.
P.S. А если тупо растянуть в пеинте изображение?

Ответить
0

Это был реализованный фич-реквест от пользователей))

Ответить
9

Сначала мы изобретали софт для распознавания лиц!

Ответить
11

Теперь мы его уничтожим...

Ответить
7

Закопайте стюардессу.

Ответить
10

В это время фотки в соц.сетях

Ответить
8

Надеюсь, оригиналы фото не улетают в Чикаго на сервера 🤔 А то у всех в базах "отравленная" версия, кроме... 😏

Ответить
4

... кроме чикагской мафии

Ответить
3

"Однако изменения видны невооружённым глазом" - я не вижу разницы а вы?

Ответить
1

я уж начал беспокоиться, что я один такой

Ответить
4

оба на, роботы спалились

Ответить
0

Да я как первый ряд увидел - офигел. Совсем другое лицо. Не пара пикселей - а будто в пеинте растянули.
Тянет а поделку бухих студентов под наркотой, а не "инженеров из университета".

Ответить
1

Этот софт также начнёт собирать свою базу :)

Ответить
0

AI это плохо видит, пусть тогда камера с AI смотрит на монитор. Думаю, что процент точного распознания будет выше. ;)

Ответить
1

Да просто на Депозит пусть грузят, он зашакалит изображение так, что останется только важная инфа

Ответить
0

И никакие инженеры не нужны.

Ответить
–1

И прям никак AI на них не натаскать?

Ответить
0

а сами-то как думаете :3

Ответить
2

Понятия не имею, я не технарь

Ответить
0

Натаскают, можно не сомневаться.

Ответить
0

Выше я уже ответил

Ответить
0

Классная вещь

Ответить
0

Вот это уже интересно)

Ответить
0

Штука конечно интересная, а мошенники этим не воспользуются)

Ответить
0

+

Ответить
0

Все это подобное я уже наблюдаю с середины 90-х со школы...
Каждое следующее поколение вирусов и всякого зло-ware, обходит предыдущее поколение антивирусов... 
Надеятся что будет "таблетка" - по большему глупо, а по меньшей мере наивно...
Очередное спиральное движение...
Причем будут как перебежчики и "казачки", так и те кто и лечит и калечит...
Проблема описать "новую модель", ее возможные сигнатуры, добавить обработку дополнительной фильтрации... это задача на время, не вопрос проблемного поиска решения...
но это полезная информация, я за дополнительное освещение подобной проблематики и актуальности разработок..., иначе скоро каждый унитаз будет отказывать поднимать крышку, пока ему там фейсом в камеру не сунешь

Ответить
0

Нет. Одна из фич таких вот решений (это, к слову, не первое) в том, что полученные результаты непригодны для обучения моделей. Можно хоть миллион модифицированных вариантов одного человека засунуть и всё равно машина не сможет узнавать этого человека на миллион первом варианте. В этом и прелесть. И после этого в Космолоте https://brody.com.ua/ зарабатывать.

Ответить
0

А Вы сами проверяли данный софт? Он действительно защищает от "Microsoft Azure Face API", "Amazon Rekognition Face Verification", "Face++ Face Search API" ?

Ответить

Комментарии

null