Power Idea: кластеризация идей форума АСИ
В начале июля 2020 года Агентство стратегических инициатив совместно с Фондом «Росконгресс» запустило федеральный форум «Сильные идеи для нового времени», который продлился 5 месяцев и включал в себя несколько этапов.
- Сначала на специальной краудсорсинговой платформе, разработанной компанией WikiVote, все желающие размещали свои идеи по 7 основным тематикам: современная экономика, новая социальная стратегия, новое городское развитие, новая технологическая стратегия, новые компетенции, новая молодежная повестка, новые идеи для бизнеса. В каждом направлении также было представлено по несколько субтреков. Всего на платформу поступило более 14 770 идей.
- Далее идеи дорабатывались на платформе через комментарии экспертов, голосование, «упаковку» профессиональными трекерами для формирования лучших идей.
- Изначально было отобрано топ-1000 идей, но в финал форума прошли только 300. Первая сотня идей – это предложения, отобранные с учетом мнения региональных, федеральных и международных экспертов. Вторая сотня – идеи-лидеры по рейтингу общественной поддержки среди всех треков. И третья сотня – идеи, которые агентство планирует учесть при обновлении стратегии АСИ.
- Все 300 авторов идей получат возможность представить их на питч-сессиях до февраля 2021 года. Будет организована серия презентаций с привлечением чиновников, представителей институтов развития, банков и компаний, а также профильных экспертов. Авторы этих идей будут отмечены на самом высоком уровне в масштабе страны и получат поддержку.
Например, в топ-100 идей по нашему субтреку «Доступность данных. Данные как ресурс» прошли три идеи.
Для комфортной работы всех участников форума мы проанализировали идеи форума разбили их на кластеры, о чем расскажем подробнее.
Построение графов
На крауд-платформу поступило огромное количество идей, которые довольно сложно обработать без использования технологий – всего люди из различных регионов России представили 14 770 идей. Для повышения качества аналитики этих идей, было решено применить инструменты анализа данных.
При этом базовая гипотеза состояла в том, что несмотря на четко сформулированные треки и субтреки, могут возникать идеи на их пересечении, близкие по смыслу друг к другу. С этой целью мы и применили расчет авторским алгоритмом АСИ по кластеризации корпуса текстов без обучающей выборки на основе векторизации корпуса и дальнейшей кластеризации векторов с помощью алгоритма на графах.
Кластеризация данных – статистическая процедура, выполняющая сбор данных, содержащих информацию о выборке объектов, и затем упорядочивающая объекты в сравнительно однородные группы (кластеры).
Для составления визуализации мы провели семантический анализ идей. В результате анализа повторяющиеся идеи и идеи, между которыми есть связи, скомпонованы в кластеры. Всего было проанализировано 14 770 идей и выявлено 464 идеи, которые так или иначе связаны между собой. По итогам расчета получилось 47 кластеров. Для интерпретации этих данных и их визуализации, мы использовали открытую библиотеку – force-graph.
Дополнительно были визуализированы идеи, отобранные экспертами и народным рейтингом и идеи, наиболее близкие по семантике.
Если рассматривать рейтинг идей по народному голосованию, то наиболее популярными темами стали: станции зарядки электромобилей (48420 голосов), поддержка социального предпринимательства (36600 голосов) и социальные услуги (24958 голосов).
При этом наиболее популярной темой по связанности идей стал рынок труда – 32 идеи. Еще одна тема, которая волнует людей, связана с проблемой бездомных животных – таких идей 28. На третьем месте тема детей с ОВЗ – 20 связанных идей.
Особое внимание у коллег вызвала тема, связанная с борщевиком – этот кластер был в треке «Городское развитие» – 5 идей по борьбе с борщевиком.
Для понимания связности наиболее популярных идей, мы выделили топ-15 кластеров.
Кроме того, мы посмотрели кластеры в разрезе регионов, которые активно подавали идеи. В качестве примера можно привести Томскую область. Основными направлениями по связанности идей в регионе стали три темы: дети с ОВЗ – 20 идей, меры поддержки для МСП – 13, креативная индустрия – 11.
Приоритизация и запрос на сервисы
Анализируя идеи, которые поступили на форум, мы увидели сквозную тему по всем направлениям – информационные сервисы. Для нашего субтрека по данными такой инсайт позволил сформировать инициативу, связанную с общественным диалогами по сервисам для их приоритизации.
Авторами идей было представлено почти 350 запросов, направленных на создание или поддержку различных сервисов. Больше всего запросов получено по направлению «Новая технологическая стратегия» – 131 идея, из которых 98 находятся в субтреке «Доступность данных. Данные как ресурс». По направлению «Новая социальная стратегия получено 112 запросов, «Новые компетенции» – 45, «Новые идеи для бизнеса» – 23, «Новое городское развитие» – 17, «Современная экономика» – 14, «Новая молодежная повестка» – 7. Обработать эти запросы помогли также алгоритмы анализа данных.
Та кластеризация, которую создала наша команда – Эдуард Маас, Никита Веселов, Дмитрий Житких, Николай Моргачев, Антон Размахнин – помогает не только структурировать работу участников проекта, но и, в первую очередь, видеть проблемы и фокусы внимания людей, а также связанность по проектам. Прежде чем создавать те или иные сервисы, важно «слышать» запросы и потребности общества в различных сферах.
Этот же запрос звучит в диалоге с владельцами данных и технологическим компаниями: им важно понимать правила игры, как они могут встроить государственные данные в свои сервисы, а также какими данными могут быть полезны государству.
Кластеризация идей по контенту показывает выглядящую довольно необычно на первый взгляд, но существующую для всех погружавшихся проблему: тематика развития – а именно ей был посвящен форум АСИ «Сильные идеи для нового времени» – остается очень фрагментированной. Каждой из областей занимаются отдельные сообщества со своими целями и даже своим языком. И поэтому набор идей, которые должны были бы все быть очень сильно провязаны между собой, на деле рассыпаются на отдельные миры.
По счастью, эти миры изолированы не совсем. Я знаю много людей, которые одновременно присутствуют в каждом из них – кстати, исследование связей такого рода, на уровне людей и институций, может стать ещё одним слоем для аналитической модели, – и это дает надежду, что такая ситуация может стать зоной роста, а не предметом для грусти. Проводя такого рода анализ всегда интересно не то, что плохо, а то, что можно сделать в этом хорошо. И в получившейся картинке я вижу почти готовое техническое задание.
Большой пласт работы проделали разработчики платформы. То качество данных, которые мы получили для визуализации идей заслуживает отдельной благодарности. Про создание воронки идей и работу с сообществом форума команда WikiVote подробно рассказала здесь.
Мы очень рады, что в рамках Форума удалось организовать работу более 220 тысяч участников в атмосфере взаимного уважения и доброжелательной конструктивной критики. Участники прекрасно реагировали на доработки и постоянно повышали рамку качества. В итоге среди почти 15 тысяч идей доля неконструктивного контента составила менее 1%, что является очень хорошим результатом.