Machine learning
Strelka KB
806

Как мы начали использовать NLP, чтобы привлечь горожан к проектированию городов будущего

В закладки

1. Что такое вовлечение и для чего оно нужно?
Каждый из нас пользуется городской инфраструктурой. Часто мы сталкиваемся с кучей неудобных решений. Классический пример — пешеходный переход расположен в том, а не в этом месте, хотя все перебегают дорогу именно здесь.

Чтобы справиться с такого рода проблемами, в IT-сфере и маркетинге уже давно применяются инструменты получения обратной связи от пользователей, а также ко-криэйтинг — разработка новых продуктов при участии пользователей. В свою очередь крупные города сейчас начинают развиваться по тем же принципам, что и продукты и сервисы, и могут исследоваться и оцениваться так же. К примеру, когда Amazon понадобилось выбрать город, в котором расположился бы головной офис компании, представители компании организовали конкурс, в котором победил город, соответствовавший требованиям организации по максимальному количеству критериев (им стал Кристал Сити, штат Вирджиния).

В этих условиях закономерно возникает потребность в инструменте для выстраивания конструктивной обратной связи с пользователями-горожанами. И мы в КБ Стрелка придумали такой инструмент — онлайн-платформу, позволяющую собирать и анализировать предложения горожан. С её помощью представители городской и региональной администрации, а также девелоперы и другие инициаторы городских изменений могут привлечь горожан к проектам по развитию городской среды. Мы назвали её «Чего-хочет-город.рф». Платформа состоит из двух основных частей: инструментов для сбора идей (сайта, чат-ботов в социальных сетях и мессенджерах) и инструментов аналитики, доступ к которым открывается в личном кабинете пользователя.

​События, идеи и предложения горожан представлены на интерактивной карте в личном кабинете. Интерактивная карта — лишь один из множества инструментов визуализации итоговых данных

2. Особенности нашего подхода к вовлечению пользователей

Дополнив чат-ботами сайт краудсорсинговой кампании, традиционно применяющийся для цифрового вовлечения, мы смогли подключить к процессу сбора идей новых пользователей, которым не нужно регистрироваться или устанавливать дополнительные приложения. При этом у горожан появилась возможность с помощью мобильного телефона оперативно отправлять геотеги, дополнять идеи фотографиями и видео.

Как показали несколько организованных нами кампаний по вовлечению, через чат-бот ВКонтакте можно собрать до 20% от всех идей. Использование чат-бота также расширяет социально-демографические характеристики участников вовлечения. В социальных сетях и мессенджерах предпочитают оставлять идеи молодые люди (до 40 лет), в то время как сайтом обычно пользуются люди старшего поколения. По итогам кампаний в Кисловодске и Сахалине мы обнаружили, что количество символов в каждой идее, отправленной через чат-боты, в два раза меньше, чем в идеях на сайте: молодые люди пишут короче и откровеннее высказывают свою позицию по вопросам состояния города. Раньше эту группу пользователей было не слышно.

За время работы над проектами в разных городах и на разных площадках, мы пришли к выводу, что диалоговая система в виде кнопочного опросника в чат-ботах работает не в полном объеме. Опыт показал, что пользователи не всегда понимают, что от него/нее хотят, даже если на экране светится одна большая кнопка. В результате диалог с ботом заходит в тупик, а люди не понимают, что происходит, торопятся с ответами, сбивают логику диалога, нервничают и покидают чат. Это стимулировало нас перейти от диалоговых деревьев к нелинейным диалогам, а необходимые деревья вопрос/ответов прорабатывать с экспертами по коммуникациям. Так мы пришли к разработке контекстных ботов и Conversational interface (CI).

CI — это гибридный интерфейс, который взаимодействует с пользователями. Функционал такого бота помимо текстовых сообщений включает голосовые сообщения, кнопки, изображения и видео. Бот подстраивается под каждого конкретного пользователя и умеет «читать между строк». Это впечатляет горожан, привыкших к простым опросам или же вообще никогда не коммуницирующих с машиной в формате диалога.

Исследователю или пользователю платформы бот предоставляет дополнительный материал для изучения. Раньше его пришлось бы обрабатывать вручную. Идей в рамках одной кампании могло быть более 1000. Их обработка занимала много времени и не позволяла учесть результаты нескольких проведенных кампаний, если тематика опросов была изменена. Сложно было сделать дополнительные исследования по прошедшим работам или получить срез по конкретной теме, тональности высказывания или времени ответа — для этого требовалось привлекать дополнительный человеческий ресурс. Сегодня все эти проблемы снимаются за счет использования инструментов для автоматизированного семантического анализа.

3. Как мы начали внедрять NLP

Для работы с собранными идеями пользователей мы используем семантический анализ — выделение смыслов в массивах идей и последующую кластеризацию данных при помощи методов обработки естественного языка — NLP (Natural Language Processing).

В частности, в нашей краудсорсинговой платформе будут применяться следующие технологии Natural Language Processing:

  • Кластерный анализ отзывов горожан, то есть объединение похожих отзывов в группы. Для этого отзывы векторизованы, представлены в виде массива числовых показателей. С помощью Term Frequency-Inverse Document Frequency мы можем оценить важность ключевых слов и словосочетаний в отзыве (биграмм и триграмм), а после этого становится возможным измерить расстояние между отзывами и объединить в группы те отзывы, которые окажутся близко друг к другу. Для решения этой задачи мы пользуемся библиотекой scikit-learn. Объединение отзывов в кластеры необходимо для последующего анализа.
  • Суммаризация текста и выделение ключевых слов. Эта процедура необходима для того, чтобы представить большие объемы информации, поступающие от тысяч людей, в более компактном виде, а также для поиска информации. Планируем использовать TextRank и его модификации. Особенно интересно применять суммаризацию не на уровне отдельных сообщений, а на уровне групп похожих сообщений, чтобы пользователь мог быстро ознакомиться с основными запросами в рамках каждой темы.
  • Экстрактор фактов по шаблонам. Например, факт, относящийся к шаблону неудовлетворительного состояния: «В Ленинском районе ужасные дороги». Факт нехватки: «Хорошо бы сделать аквапарк рядом с моим домом». В таких синтаксических конструкциях мы сможем выделять ключевые элементы: что, где происходит. В этом поможет библиотека SpaCy и стандартные методы компьютерной лингвистики, например, парсинг синтаксических деревьев.
  • Распознавание именованных сущностей. Распознавание нужно для выделения в тексте географических наименований, персон, адресов, названий организаций, упоминаний дат и времени. Используем attention-based нейросетевые методы.
  • Классификация текстов по заранее предопределенным темам (например, «Парки и скверы», «Экология» и т.д.). Она позволяет предоставлять пользователю более детальную информацию по насущным проблемам горожан в каждой из этих областей, понять, какая из них в первую очередь заслуживает внимания.
  • Анализ тональности отзывов в сочетании с вышеперечисленными методами поможет ответить на вопросы: какая из городских проблем вызывает наибольшее недовольство жителей? Насколько в целом горожане удовлетворены состоянием дел? Чтобы ответить на эти вопросы, мы дообучили существующие нейронные сети под нашу специфику (transfer learning), используем фреймворки pytorch и transformers.

В будущем для лучшей связи с жителями города (например, для ответов на часто задаваемые вопросы) мы будем строить диалоговую систему, например, на основе решения DeepPavlov, которое разрабатывают эксперты из МФТИ.

Использование моделей NLP в проектах городского развития — лишь часть комплексной работы по вовлечению горожан. Но это очень важная часть, открывающая новые возможности для разных стейкхолдеров. Для управленцев появляется аналитический центр: все городские процессы и запросы жителей в агрегированном виде «попадают на стол» мэру или распределяются между ответственными департаментами. Для застройщиков и архитекторов — это инструмент для анализа запросов существующих и будущих клиентов, база знаний о городе, возможностях и потенциале мест для новых проектов.

Наш итоговый продукт — CRM-система для города, построенная на данных. Выделение фактов, суммаризация запросов, анализ упоминания имен собственных и топонимов, эмоциональная окраска фактов или событий — все это новые инструменты по работе с городской средой.

4. Какие у нас планы на будущее?

Наша большая цель — распространить инструмент демократии в процессах городских изменений. Чтобы мнение каждого горожанина было услышано и учтено при работе с проектами разного масштаба: от установки лавочки у подъезда до проектов территориального планирования.

Сегодня проектирование на основе данных — фундаментальная составляющая работы специалиста по развитию городов: чиновника, девелопера, архитектора или публициста/блогера. Возможности машинного обучения открывают двери к ранее невозможному — системному внедрению «боттом-ап» подхода в проектировании и управлении городами. Непредвзятые алгоритмы, активные горожане и большие данные уже сегодня формируют облик городов будущего. И каждый из нас может быть к этому причастен.

{ "author_name": "Strelka KB", "author_type": "self", "tags": [], "comments": 1, "likes": 12, "favorites": 15, "is_advertisement": false, "subsite_label": "ml", "id": 116620, "is_wide": true, "is_ugc": true, "date": "Tue, 31 Mar 2020 19:44:07 +0300", "is_special": false }
Colisium Team
Концертная индустрия в кризис: пути выхода, новые форматы и создание Ассоциации
Недавно состоялся очередной форум участников концертной индустрии Colisium (проходит с 2007), в этот раз в онлайн…
Объявление на vc.ru
0
1 комментарий
Популярные
По порядку
0

Привет! Пожалуйста, не используйте капс в материалах

Ответить

Прямой эфир