Работа над ошибками: регионы стали лучше формулировать задачи на основе данных

Четко формулировать задачу, определять гипотезы для ее решения, предоставлять спецификации данных и сами данные в задачи – то, чему научилось большинство регионов за год с момента участия в конкурсе цифровых решений АСИ в 2019 году. Мы определили, в чем регионы стали разбираться лучше и где уже демонстрируют свои успехи в рамках международного проекта World AI & Data Challenge, а также выявили ключевые ошибки участников в ходе конкурса прошлого и этого года.

В закладки

Качество формулировок

Регионы стали понимать, что постановка задач для технологий искусственного интеллекта (ИИ) и анализа данных требует конкретных целей, вариантов гипотез и критериев решения задачи, ориентированности на доступные данные, оценки эффективности полученного решения, наличия необходимых ресурсов для внедрения и потенциала для тиражирования.

Для повышения качества представленных задач в этом году впервые введен дополнительный этап их акселерации. Первые шаги уже были сделаны в рамках онлайн-сессии с постановщиками задач, экспертами и дата-сообществом региональных подразделений Сбербанка.

Если в прошлом году по итогам первого этапа прошли 30 задач, то в рамках конкурса этого года, помимо 22 изначально качественно поставленных задач с данными, в ходе акселерации уже доработано 22 задачи и проработке находятся еще порядка 40 задач.

В качестве примера можно привести постановку задачи Новосибирской области «Предиктивный анализ туристских потоков». Задача была доработана в результате акселерации, постановщики дополнили её критериями результативности и исследуемыми гипотезами.

В постановке присутствуют:

  • Требования к разрабатываемому алгоритму и отсылки на направления, в которых он может быть развит.

  • Конкретные показатели, анализ которых должен приводить к решению: число въездных/выездных туристов, количество иностранных туристов, количество туристов, прибывших в туристскую дестинацию, количество запросов на размещение, рейтинг трендсеттеров в сфере туризма по направлениям, количество запросов с заданными семантическими ядрами и так далее.

  • Также даны примеры наборов данных: данные аэропорта Толмачёво, статистики размещения в гостиницах, статистика въездных туристических поездок иностранных граждан, дополнительные источники анализа, такие как данные открытых источников, материалы поисковых запросов и т. д.
  • Представлен код решения, разработанный в рамках прошлого конкурса для Челябинской области.
  • Приведены некоторые результаты предварительных исследований, которые провёл постановщик задачи, и сформулирован ряд гипотез.

Также в ряде задач за основу берутся уже разработанные решения прошлого года. Например, решения по автоматической классификации обращений граждан, анализу цифрового следа туриста и зависимости успеваемости ребенка от программ дополнительного образования.

Часть регионов все еще ставят слишком масштабные задачи, которые требуют больше времени на разработку их решений. Такие задачи необходимо конкретизировать и решать последовательно.

Сбор данных в задачи

В прошлом году регионы зачастую предоставляли к задачам неструктурированные и немашиночитаемые данные. Также прослеживалась несвязность датасетов из разных источников, а иногда вместо данных регионы присылали отчетные ведомости, либо данные полностью отсутствовали. Отсутствовала автоматизация сбора данных и понимание, где их брать на регулярной основе. Некоторые ошибки прослеживались и в рамках конкурса 2020 года.

Например, в задаче анализа аварийности на дорогах Свердловской области постановщики приложили в качестве данных ведомости о случившихся в регионе ДТП. Анализ только этих данных не позволит выявить причины таких событий и способы противодействия им. Чтобы решить такую задачу, предоставленные данные необходимо обогатить данными траекторий движения транспорта и пешеходов, а также плотностями этих потоков. Постановщики задачи уже озабочены поиском методов их получения.

В целом, качество собираемых данных в задачи значительно улучшилось: постановщики задач присылают строгие спецификации с образцами, которые можно использовать для разработки решений. В качестве примеров можно рассмотреть целый класс задач, связанных с балансом трудовых ресурсов, обработки обращений граждан, экологического мониторинга городской среды, анализа причин возникновения бедности и других.

В этом году также есть задача по распознаванию текстов, написанных с помощью алфавита Брайля, данные в которую прислали более десяти школ, обучающих детей с особенностями зрения. Качественные данные, на основе которых можно создать задуманное постановщиками решения. При ослаблении режима самоизоляции ожидаются данные и из других школ.

Разметка данных также является важным этапом решения задач. В прошлом году конкурсанты представили две задачи, требовавшие разметки обучающих и тестовых выборок: автоматическая классификация обращений граждан и классификация цифрового контента учреждений культуры. Кроме того, были две задачи, которые не требовали такой разметки, а наоборот, создавали её – это анализ цифрового следа туриста и анализ качества предоставления медицинских услуг.

В этом году такая разметка требуется в двух задачах: анализ обращений граждан и распознавание текстов, написанных на языке Брайля, где разметка будет создаваться при помощи методов машинного обучения.

Запрос на уже имеющиеся решения

В некоторых поставленных задачах прослеживается запрос на уже разработанные решения, которые предложило дата-сообщество в рамках конкурса 2019 года. Такие решения уже размещены в открытом доступе и будут переданы регионам для внедрения. Часть таких решений требуют «апгрейда» и могут быть доработаны командами в этом году.

В прошлом году часть поставленных задач дублировало функционал уже существующих государственных информационных систем и коммерческих сервисов. Таких задач стало значительно меньше, но часть регионов все еще присылают задачи, направленные на разработку платформ и сайтов. Остались и задачи, которые не могут быть решены с помощью искусственного интеллекта и требуют выстраивания управленческих процессов в региональных командах.

Задачи стали более человекоцентричные

Вероятно, это обусловлено тем, что в рамках нового конкурса заявки подавали не только представители регионов, но и социальные сообщества – держатели этих проблем. На конкурс было получено 29 задач от сообществ.

Среди представленных на конкурс социальных тем есть такие, как: оценка эффективности мер социальной поддержки, трудоустройство населения, эффективность индивидуальных программ реабилитации инвалидов, выявление причин бедности жителей субъектов, верификация сайтов и приложений по оценке их уровня доступности для людей с различными видами инвалидности, визуализация географической карты для определения структуры распределения средств на деятельность НКО.

Также увеличилось количество задач, направленных на повышение качества жизни жителей регионов. Например, Ульяновская область планирует определить ключевые различия в качестве жизни населения в разных муниципальных образованиях для выявления сфер жизнедеятельности, требующих особого внимания со стороны органов власти. Если в настоящее время оценка занимает достаточно много времени и основной перечень показателей – это статистическая информация, то применение технологий ИИ и анализа данных повысит качество применяемых данных и позволит выйти на новый уровень измерения уровня качества жизни населения.

Для решения этой задачи необходимо определить ряд показателей: материальное положение граждан, уровень бедности населения, степень занятости, уровень обеспеченности доступным и комфортным жильём, безопасность проживания, демографическую ситуацию, экологические условия, уровень здоровья, обеспеченность кадрами и инфраструктурой в здравоохранении, доступность медицинских услуг, обеспеченность объектами образования и доступность образования, обеспеченность объектами культуры и спорта, транспортной инфраструктурой, объектами торговли и общественного питания, уровень экономического развития.

Одним из важных требований к задачам является соблюдение этических и правовых норм. В этом году задачи регионов полностью соответствовали данному требованию.

Экспертная поддержка всех этапов проекта

Поддерживающие форматы онлайн- и офлайн-мероприятий в конкурсе 2019 года значительно повлияли на качество поставленных задач, их решение и внедрение. Для этого мы решили добавить этапы акселерации и задач и решений с целью доработки и повышения их качества.

Мы увидели, что в тех регионах, где мы, например, проводили дата-хакатоны, глубина погружения ребят в задачи была намного выше. В рамках нового конкурса мы также подготовили ряд таких активностей и будем помогать командам постановщиков задач и дата-аналитиков выстраивать диалог друг с другом для достижения совместных целей

Вера Адаева
Директор Центра цифрового развития АСИ

Выстроенный диалог между командами

Постановщикам задач и командам разработчиков, которые сумели выстроили диалог друг с другом в рамках конкурса 2019 года, удалось доработать даже те задачи, которые имели низкий потенциал на старте. Как результат, предложенные решения были внедрены в регионах.

Для взаимодействия команд нами была разработана специальная инфраструктура. На платформе у разработчиков есть возможность задавать уточняющие вопросы постановщикам задач, а им, в свою очередь, отвечать на них. В прошлом году задачи, где дата-специалисты не видели активность со стороны регионов, не дошли до этапа внедрения. Иногда регионы просто не отвечали или долго искали данные под задачу, не сообщая разработчику о ходе самого процесса, в результате чего он терял интерес к ее решению. Мы считаем важным уже на втором этапе конкурса постановщикам задач поддерживать диалог с командами разработчиков для успешного внедрения полученных решений

Вера Адаева
Директор Центра цифрового развития АСИ

Для эффективной коммуникации на третьем этапе изначально должны быть определены лидеры как со стороны постановщиков задач, так и со стороны команд-разработчиков, которые будут драйверами своих проектов и в результате смогут совместно довести их до внедрения. В прошлом году не всем участникам удалось установить правильные роли в командах, из-за чего некоторые внедрения остановились.

Адекватная оценка своих ресурсов

Постановщики задач должны быть готовы ко всем этапам проекта и адекватно оценивать свои ресурсы. Опыт проведения конкурса 2019 года показал, что не у всех регионов есть понимание, что модели машинного обучения, предоставленные разработчиками необходимо тестировать на их корректность и актуальность, обеспечивать данными в режиме эксплуатации, а также поддерживать его работу. Например, команда разработчиков передавала готовое решение и помогала настроить его заказчику, но понимания необходимости его обслуживания на этапе опытной и промышленной эксплуатации у региона не было.

Регион, чья задача дошла до этапа разработки решений, должен готовиться организовать процесс передачи данных из внутренних систем, как вариант, по средствам API и готовить инфраструктуру под его развертывание и внедрение в облачных сервисах или на собственных серверах. Это даст возможность быстрее внедрить цифровое решение и получить эффект от его использования.

{ "author_name": "Центр цифрового развития АСИ", "author_type": "self", "tags": [], "comments": 0, "likes": 0, "favorites": 2, "is_advertisement": false, "subsite_label": "unknown", "id": 124383, "is_wide": true, "is_ugc": true, "date": "Fri, 01 May 2020 12:49:40 +0300", "is_special": false }
Кейсы роста
14 механик по удержанию и возврату пользователей
Наверное, вы знаете, что увеличение удержания пользователей на 20% (при прочих равных) равносильно увеличению притока…
Объявление на vc.ru
0
Комментариев нет
Популярные
По порядку

Прямой эфир