«Творческая и умеренно меланхоличная»: нейросеть проходит тест Роршаха

Психотерапевт проанализировал ответы.

Смотрели супергеройский фильм «Хранители»? Самый запоминающийся герой, Роршах, пугал преступников жуткой маской с переливающимися пятнами. Фильм снят по комиксам 80-х годов. Тогда в психиатрии всё ещё был популярен диагностический тест Роршаха.

Швейцарский учёный Герман Роршах считал свою методику ключом к познанию личности человека. Респондент должен описать, что он видит в чернильных кляксах неправильной формы. Проанализировав эти ассоциации, специалист делает выводы о характере человека, особенностях его поведения и врождённых способностях. В своё время тест Роршаха часто применяли в сфере управления персоналом.

Мы попросили психотерапевта смахнуть пыль с методички и привели на приём необычного пациента — модель компьютерного зрения от Microsoft.

В прошлом году «пациент» стал более понятливым

Этот алгоритм умеет генерировать подписи к изображениям. И после недавнего обновления зачастую справляется не хуже человека. Это подтверждает тест nocaps, основной бенчмарк в отрасли.

Разработчики добились серьёзного прогресса в точности распознавания, предварительно обучив модель на массиве изображений в паре со словами-тегами. Каждый тег был привязан к конкретному объекту на фотографии.

Затем работу модели откорректировали на наборе изображений с полноценными подписями. Так она научилась составлять целые предложения и находить связи между объектами, а не просто их идентифицировать. Скажем, вместо обычного для нейросетей «ребёнок, стол, микроскоп» модель сгенерирует «ребёнок сидит за столом и смотрит в микроскоп».

На основе этого алгоритма работает мобильное приложение Seeing AI, предназначенное для слабовидящих и слепых людей. Его мы и использовали для проведения теста.

По характеру нейросеть похожа на Дарвина и Чехова

Тест Роршаха состоит из десяти цветных и чёрно-белых аморфных изображений, симметричных по вертикальной оси. Респондент рассматривает карточки в строгой очерёдности, но может крутить их как угодно.

Интерпретация результатов заняла у психотерапевта около трёх часов. Приводим заключение с некоторыми упрощениями, но без искажения смыслов.

«Летучая мышь»
«Летучая мышь»
«Бабочка»
«Бабочка»

Респондент пребывает в хорошем психическом тонусе — не уклоняется от участия в тестировании и быстро реагирует.

80% ответов основаны на форме пятен, многие связаны с образами животных. Это говорит о том, что респондент привык оперировать общепринятыми категориями, мышление — практически ориентированное. Между чувственным и логическим он опирается на последнее.

Филипп Попов, клинический психолог и психотерапевт медицинского центра «Корсаков
«Сидящая кошка»
«Сидящая кошка»
«Руки держат сердце»
«Руки держат сердце»

Два ответа содержат детерминанты движения — «руки держат сердце», «сидящая кошка». Согласно теории Роршаха, умеренное количество таких ассоциаций свидетельствует о творческой продуктивности, развитом формальном интеллекте и эмоциональной стабильности.

Филипп Попов, клинический психолог и психотерапевт медицинского центра «Корсаков
«Несколько цветных кристаллов»
«Несколько цветных кристаллов»
«Дерево с листьями»
«Дерево с листьями»

В пользу ровного эмоционального фона говорит и отсутствие в ответах детерминант цвета. Респондент не сталкивается с «эмоциональными качелями», склонность к импульсивности и демонстративному поведению не выражена.

Филипп Попов, клинический психолог и психотерапевт медицинского центра «Корсаков
«Лист дерева»
«Лист дерева»
«Мохнатое животное»
«Мохнатое животное»

Малый удельный вес человеческих образов — признак интроверсии. По Роршаху, у интровертов хорошо развито воображение, а мотивы чаще всего продиктованы внутренним состоянием, а не внешней средой.

Филипп Попов, клинический психолог и психотерапевт медицинского центра «Корсаков
«Отпечатки лап на снегу»
«Отпечатки лап на снегу»
«Цветок»
«Цветок»

Таким образом, мы имеем дело с высокопродуктивной «личностью», творческой и умеренно меланхоличной, обладающей устойчивой психикой.

Стиль жизни таких индивидов можно описать поговоркой «семь раз отмерь — один раз отрежь». Они не проявляют импульсивность ни в делах, ни в эмоциональных реакциях. Но способны добиваться больших успехов в искусстве и науке. К психастеническому типу относят, например, Дарвина, Моне и Чехова.

Филипп Попов, клинический психолог и психотерапевт медицинского центра «Корсаков

Высокопродуктивная «личность» работает по API

Описание фотографий — далеко не единственный сценарий использования Seeing AI. Например, если навести камеру смартфона на человека, приложение определит его примерный возраст, черты внешности и опишет выражение лица. Алгоритм распознаёт восемь эмоций — радость, грусть, удивление и другие.

Seeing AI использует когнитивные сервисы Microsoft — готовые модели машинного обучения, доступные для разработчиков на облачной платформе Azure. SaaS-решения позволяют клиентам реализовать в своих продуктах возможности в сферах компьютерного зрения, обработки речи и текстов, по уровню сравнимые с человеческими. Некоторые из них:

  • Распознавание предметов, людей и их эмоций на изображениях и видео.
  • Распознавание речи для приложений, ботов и устройств интернета вещей.
  • Преобразование речи в текст и обратно, перевод в реальном времени.

  • Индексатор для автоматического извлечения метаданных из звуковых и видеофайлов.
  • Определение тональности текста, выделение ключевых фраз и именованных сущностей.

Когнитивные сервисы можно развернуть с помощью контейнеров в любой среде — от облака до граничных устройств. От разработчиков не требуются знания по машинному обучению: достаточно вызвать API сервиса несколькими строчками кода, чтобы передать материалы на веб-сервер для обработки. Стоимость услуг зависит от количества операций.

За канальную безопасность отвечает технология TLS (англ. transport layer security — протокол защиты транспортного уровня). Она предотвращает перехват контента, шифруя канал. Microsoft гарантирует поддержку этой технологии, а клиенты не должны забывать про неё в программном коде.

Если готовые модели не подходят, можно сделать свою в Azure ML

Когнитивные сервисы универсальны и охватывают самые популярные бизнес-запросы в области машинного обучения. Их часто используют в прототипировании и для разовых проектов. Например, чтобы провести исследование, как пользователи отзываются о бренде в социальных сетях.

Другое дело — стратегически важные, долгосрочные проекты, под которые не подойдут готовые решения. Для них нужны кастомные модели машинного обучения. Их создают в сервисе Azure ML. Код можно писать самостоятельно с помощью пакетов SDK для Python и R. Или работать в «Студии» — портале для обучения, развёртывания и управления моделями с минимальным кодингом или вовсе без него.

«Студия» — это визуальный конструктор, в котором можно настроить логику работы модели, соединяя функциональные блоки. Этот инструмент сильно снижает входной барьер в машинное обучение. В «Студии» легко освоятся дата-сайентисты, сконцентрированные на математике и моделировании, а не на программировании.

Интерфейс «Студии» Azure ML
Интерфейс «Студии» Azure ML

Недавно компания Dodo Brands, владеющая сетью пиццерий «Додо Пицца», внедрила интеллектуальную предиктивную модель на базе сервиса Azure ML. Технологическими партнёрами выступили Microsoft и Crayon. Система прогнозирует расходы ингредиентов, учитывая множество факторов, в том числе сезонность спроса и маркетинговую активность. Разработчики использовали Azure ML для анализа данных, выбора фреймворков и тренировки тестовых моделей.

Раньше управляющий каждой пиццерии вручную вычислял объём закупок и тратил на это до пяти часов в неделю. Неизбежные ошибки в расчётах приводили к перезакупкам или нехватке ингредиентов. Некоторые позиции приходилось временно убирать из меню, а это финансовые потери и ухудшение клиентского опыта.

Централизованная модель упростила прогнозирование и повысила точность на 18%. Пока система работает в 50 ресторанах компании. Масштабирование решения на всю сеть позволит экономить до 54 млн рублей в год.

Microsoft вкладывает много ресурсов в обеспечение конфиденциальности данных, которые обрабатывают модели. Были случаи, когда хакеры или энтузиасты из сообщества умудрялись деанонимизировать данные исследований, сличая их с публичной информацией. Сейчас пользователям Azure ML доступны инструменты, которые вносят в данные так называемый шум — рекомбинирование полей. Изменение логики построения массива исключает возможность реверс-инжиниринга.

Создание приложений без навыков программирования

Нарастающая автоматизация инструментов разработки вылилась в целое направление под названием Citizenship development. В рамках этого подхода Microsoft создаёт продукты, открывающие доступ к разработке людям, которые не занимаются этим профессионально или вообще не умеют программировать. Яркий пример — платформа Azure Power Apps, где для создания бизнес-приложений не нужно писать ни строчки кода.

Это набор инструментов, служб и соединителей, объединённых в конструктор на основе готовых шаблонов. Сборка приложения напоминает создание слайдов в PowerPoint. Дизайн — адаптивный, так что приложения могут выполняться в браузере или на мобильных устройствах.

Интерфейс PowerApps
Интерфейс PowerApps

Элементарный пример: маркетолог решил провести конференцию и подготовить приложение со списком докладов. Но отдел разработки занят или на это нет бюджета. Используя Power Apps, маркетолог может сделать приложение самостоятельно — составить базу данных, создать графический интерфейс и связать базу с интерфейсом. Для этого нужно указать логику, по которой каждая запись из файла будет моментально отображаться на интерфейсе.

С точки зрения разработчиков PowerApps — это возможность сконцентрироваться на сложных процессах, избавившись от типовых проектов. Профессиональный разработчик может подключиться к созданию приложения, чтобы помочь интегрировать продвинутые инструменты — например, те же когнитивные сервисы.

Это лишь малая часть возможностей, доступных разработчикам на платформе Microsoft Azure. Облачная платформа включает сотни сервисов для разработки, развёртывания приложений и хранения данных.

Их можно протестировать, создав бесплатную учётную запись — она откроет доступ к ресурсам в объёме, эквивалентном 12 500 рублей, на 12 месяцев. За 25 популярных служб в течение года вовсе не придётся платить, а некоторые инструменты бесплатны всегда.

4141
24 комментария

Какие цветные кристаллы? Очевидно же, что там два медведя дают друг другу "пять"

14
Ответить
Комментарий удалён модератором

Ага и на первой кляксе не "Лист дерева", а Тираэль из Diablo 2

Ответить

Не бабочка, а спиной мозг.
Не Дерево с листьями, а олень.
Не «Несколько цветных кристаллов», а кошка.
И да не "Сидящая кошка", а кролик.
Даже не знаю психически здоров я или нет.

Ответить

На половине фоток рентген тазовой области же 

12
Ответить

Люди добрые, подскажите пожалуйста!
Не появилась ли случайно такая нейронка, которая способна убрать водяной знак с фотографии?
У меня десятки тысяч собственных фото. Раньше их ставил, чтобы трафик с поиска по картинкам привлекать, да чтоб конкуренты их не тырили, теперь нужно убрать для маркетплейсов, они их не пускают.
Все такого плана:

6
Ответить

http://chengao.vision/FGVC/
https://github.com/zengxianyu/crfill
Как минимум две вспомнил. Первая работает с видео, но, возможно, и с фото справится. 

4
Ответить