Работа над ошибками: регионы стали лучше формулировать задачи на основе данных
Четко формулировать задачу, определять гипотезы для ее решения, предоставлять спецификации данных и сами данные в задачи – то, чему научилось большинство регионов за год с момента участия в конкурсе цифровых решений АСИ в 2019 году. Мы определили, в чем регионы стали разбираться лучше и где уже демонстрируют свои успехи в рамках международного проекта World AI & Data Challenge, а также выявили ключевые ошибки участников в ходе конкурса прошлого и этого года.
Качество формулировок
Регионы стали понимать, что постановка задач для технологий искусственного интеллекта (ИИ) и анализа данных требует конкретных целей, вариантов гипотез и критериев решения задачи, ориентированности на доступные данные, оценки эффективности полученного решения, наличия необходимых ресурсов для внедрения и потенциала для тиражирования.
Для повышения качества представленных задач в этом году впервые введен дополнительный этап их акселерации. Первые шаги уже были сделаны в рамках онлайн-сессии с постановщиками задач, экспертами и дата-сообществом региональных подразделений Сбербанка.
Если в прошлом году по итогам первого этапа прошли 30 задач, то в рамках конкурса этого года, помимо 22 изначально качественно поставленных задач с данными, в ходе акселерации уже доработано 22 задачи и проработке находятся еще порядка 40 задач.
В качестве примера можно привести постановку задачи Новосибирской области «Предиктивный анализ туристских потоков». Задача была доработана в результате акселерации, постановщики дополнили её критериями результативности и исследуемыми гипотезами.
В постановке присутствуют:
Требования к разрабатываемому алгоритму и отсылки на направления, в которых он может быть развит.
Конкретные показатели, анализ которых должен приводить к решению: число въездных/выездных туристов, количество иностранных туристов, количество туристов, прибывших в туристскую дестинацию, количество запросов на размещение, рейтинг трендсеттеров в сфере туризма по направлениям, количество запросов с заданными семантическими ядрами и так далее.
- Также даны примеры наборов данных: данные аэропорта Толмачёво, статистики размещения в гостиницах, статистика въездных туристических поездок иностранных граждан, дополнительные источники анализа, такие как данные открытых источников, материалы поисковых запросов и т. д.
- Представлен код решения, разработанный в рамках прошлого конкурса для Челябинской области.
Приведены некоторые результаты предварительных исследований, которые провёл постановщик задачи, и сформулирован ряд гипотез.
Часть регионов все еще ставят слишком масштабные задачи, которые требуют больше времени на разработку их решений. Такие задачи необходимо конкретизировать и решать последовательно.
Сбор данных в задачи
В прошлом году регионы зачастую предоставляли к задачам неструктурированные и немашиночитаемые данные. Также прослеживалась несвязность датасетов из разных источников, а иногда вместо данных регионы присылали отчетные ведомости, либо данные полностью отсутствовали. Отсутствовала автоматизация сбора данных и понимание, где их брать на регулярной основе. Некоторые ошибки прослеживались и в рамках конкурса 2020 года.
В целом, качество собираемых данных в задачи значительно улучшилось: постановщики задач присылают строгие спецификации с образцами, которые можно использовать для разработки решений. В качестве примеров можно рассмотреть целый класс задач, связанных с балансом трудовых ресурсов, обработки обращений граждан, экологического мониторинга городской среды, анализа причин возникновения бедности и других.
В этом году также есть задача по распознаванию текстов, написанных с помощью алфавита Брайля, данные в которую прислали более десяти школ, обучающих детей с особенностями зрения. Качественные данные, на основе которых можно создать задуманное постановщиками решения. При ослаблении режима самоизоляции ожидаются данные и из других школ.
Разметка данных также является важным этапом решения задач. В прошлом году конкурсанты представили две задачи, требовавшие разметки обучающих и тестовых выборок: автоматическая классификация обращений граждан и классификация цифрового контента учреждений культуры. Кроме того, были две задачи, которые не требовали такой разметки, а наоборот, создавали её – это анализ цифрового следа туриста и анализ качества предоставления медицинских услуг.
В этом году такая разметка требуется в двух задачах: анализ обращений граждан и распознавание текстов, написанных на языке Брайля, где разметка будет создаваться при помощи методов машинного обучения.
Запрос на уже имеющиеся решения
В некоторых поставленных задачах прослеживается запрос на уже разработанные решения, которые предложило дата-сообщество в рамках конкурса 2019 года. Такие решения уже размещены в открытом доступе и будут переданы регионам для внедрения. Часть таких решений требуют «апгрейда» и могут быть доработаны командами в этом году.
В прошлом году часть поставленных задач дублировало функционал уже существующих государственных информационных систем и коммерческих сервисов. Таких задач стало значительно меньше, но часть регионов все еще присылают задачи, направленные на разработку платформ и сайтов. Остались и задачи, которые не могут быть решены с помощью искусственного интеллекта и требуют выстраивания управленческих процессов в региональных командах.
Задачи стали более человекоцентричные
Вероятно, это обусловлено тем, что в рамках нового конкурса заявки подавали не только представители регионов, но и социальные сообщества – держатели этих проблем. На конкурс было получено 29 задач от сообществ.
Также увеличилось количество задач, направленных на повышение качества жизни жителей регионов. Например, Ульяновская область планирует определить ключевые различия в качестве жизни населения в разных муниципальных образованиях для выявления сфер жизнедеятельности, требующих особого внимания со стороны органов власти. Если в настоящее время оценка занимает достаточно много времени и основной перечень показателей – это статистическая информация, то применение технологий ИИ и анализа данных повысит качество применяемых данных и позволит выйти на новый уровень измерения уровня качества жизни населения.
Для решения этой задачи необходимо определить ряд показателей: материальное положение граждан, уровень бедности населения, степень занятости, уровень обеспеченности доступным и комфортным жильём, безопасность проживания, демографическую ситуацию, экологические условия, уровень здоровья, обеспеченность кадрами и инфраструктурой в здравоохранении, доступность медицинских услуг, обеспеченность объектами образования и доступность образования, обеспеченность объектами культуры и спорта, транспортной инфраструктурой, объектами торговли и общественного питания, уровень экономического развития.
Одним из важных требований к задачам является соблюдение этических и правовых норм. В этом году задачи регионов полностью соответствовали данному требованию.
Экспертная поддержка всех этапов проекта
Поддерживающие форматы онлайн- и офлайн-мероприятий в конкурсе 2019 года значительно повлияли на качество поставленных задач, их решение и внедрение. Для этого мы решили добавить этапы акселерации и задач и решений с целью доработки и повышения их качества.
Выстроенный диалог между командами
Постановщикам задач и командам разработчиков, которые сумели выстроили диалог друг с другом в рамках конкурса 2019 года, удалось доработать даже те задачи, которые имели низкий потенциал на старте. Как результат, предложенные решения были внедрены в регионах.
Для эффективной коммуникации на третьем этапе изначально должны быть определены лидеры как со стороны постановщиков задач, так и со стороны команд-разработчиков, которые будут драйверами своих проектов и в результате смогут совместно довести их до внедрения. В прошлом году не всем участникам удалось установить правильные роли в командах, из-за чего некоторые внедрения остановились.
Адекватная оценка своих ресурсов
Постановщики задач должны быть готовы ко всем этапам проекта и адекватно оценивать свои ресурсы. Опыт проведения конкурса 2019 года показал, что не у всех регионов есть понимание, что модели машинного обучения, предоставленные разработчиками необходимо тестировать на их корректность и актуальность, обеспечивать данными в режиме эксплуатации, а также поддерживать его работу. Например, команда разработчиков передавала готовое решение и помогала настроить его заказчику, но понимания необходимости его обслуживания на этапе опытной и промышленной эксплуатации у региона не было.
Регион, чья задача дошла до этапа разработки решений, должен готовиться организовать процесс передачи данных из внутренних систем, как вариант, по средствам API и готовить инфраструктуру под его развертывание и внедрение в облачных сервисах или на собственных серверах. Это даст возможность быстрее внедрить цифровое решение и получить эффект от его использования.