Открытые источники данных для ИИ в промышленности

Консультант по промышленному интернету вещей и искусственному интеллекту компании “Цифра” Екатерина Ляпина рассказала, как оседлать волну внедрения ИИ, быстро приступить к экспериментам с использованием открытых данных и перейти к полномасштабному внедрению.

При запуске нового проекта по расширению возможностей производственного объекта на основе искусственного интеллекта возникает вопрос, а возможно ли что-то сделать в принципе.

Промышленный ИИ требует большого количества данных для подготовки базовых алгоритмов. Такие данные генерируются работающими системами. Но зачастую эти данные замкнуты в себе или базы данных не связаны между собой. Они могут оставаться недоступными для команды, задачей которой является внедрение ИИ в корпорацию, если в ней ее собственные данные недоступны для построения таких систем.

И из-за временных и бюджетных ограничений команда разработчиков сталкивается с вопросом получения данных для обучения системы.

Системы прогнозирования, полностью автоматизированные системы и системы управления знаниями требуют надлежащей подготовки данных. Качество данных определяет результат работы систем ИИ.

Если корректных данных недостаточно, результаты такого обучения зачастую оказываются непригодными для использования. Иначе говоря, ИИ не способен выстраивать необходимые абстракции, которые обеспечивали бы выдающиеся результаты.

Несмотря на то что существуют методы обучения с подкреплением, не требующие наличия исходных данных, использование алгоритмов обучения с учителем, в том числе систем глубокого обучения, требует больших объемов размеченных данных.

При запуске проекта по ИИ в промышленности необходимо учитывать общий цикл таких проектов. На первом этапе необходимо получить доступ к соответствующим накопленным данным, которые могут иметь форму файлов, баз данных с необходимой информацией, или озёр данных.

Озеро данных содержит неструктурированные и структурированные данные. Как правило, формат данных в таком озере достаточно сырой и неструктурированный. Это означает, что предварительная обработка данных, поступающих в озеро из разных источников, отсутствует. Сбор данных происходит с соответствующих датчиков или архивных записей. Это не только табличные данные, но и изображения, видео или аудиозаписи.

На следующем этапе данные проходят предварительную обработку. Здесь происходит очистка данных. Они визуализируются, так чтобы эксперты в данной области могли оценить их качество. На этом этапе сырые необработанные данные становятся более информативными.

Например, эти данные являются основой для разработки прогнозных моделей. Для обработки данных обычно применяются алгоритмы машинного обучения. Специалист по анализу данных может использовать модели нейронных сетей, эффективность применения которых подлежит проверке на новых неизвестных данных после этапа обучения.

Этап обучения включает несколько циклов обратной связи, чтобы понять, решают ли результаты обучения модели поставленную бизнес задачу.

Наконец, готовые к использованию модели ИИ должны быть интегрированы в масштабе предприятия. Эта интеграция является двойственной.

С одной стороны, существуют решения ИИ, работающие на конечных устройствах, которые находятся непосредственно на объекте. С другой стороны, существует интеграция в корпоративные системы в виде микросервисов. В любом случае модели должны быть адаптированы к существующим операциям.

Где найти данные для обучения нейронных сетей и других алгоритмов машинного обучения? Несмотря на то что данные уже окрестили новой нефтью, может оказаться так, что найти источники данных за пределами предприятия сложно.

Промышленные компании оставляют свои данные для собственного использования. Тем не менее есть, например, ИТ-компании, которые прошли эту фазу хранения данных и исходных кодов для собственного использования. Однако некоторые немногочисленные компании продолжают это делать и по сей день.

Но в последние годы невообразимый успех выпал на долю систем с открытым исходным кодом. Даже такой поклонник «проприетарного» ПО, как Microsoft, вступил в ряды сторонников open source. Совместное использование данных и ПО открывает новые возможности для бизнеса и приносит пользу всей индустрии. Вот почему промышленные ассоциации и консорциумы начинают работу по обмену данными.

Еще одним источником бесплатных и открытых данных являются разработки и исследования, финансируемые государством. Такие организации, как NASA и ЦЕРН, предоставляют много ценных данных. Эти наборы данных используются для решения общих задач и испытаний новых алгоритмов. Если задаться целью поиска доступных данных в Интернете, то поразит прежде всего их обилие.

Но с этими данными есть проблема. Искусственный интеллект — актуальная тема, и многие жаждут внимания. Поэтому зачастую оказывается сложно решить, какие открытые данные подходят для того или иного конкретного проекта.

Существует множество неструктурированных наборов данных, плохого качества или просто плохо описанных. ИИ используется в различных областях и применяется для очень разных сценариев, поэтому существует множество наборов данных, не соответствующих вашим потребностям.

Если сфокусироваться на прикладном промышленном ИИ, то можно обнаружить, что ИИ применим ко многим продуктам и услугам. Его применение позволяет производителям обеспечивать новые сервисы для клиентов. Например, станки с самодиагностикой улучшают общую производительность производственных линий. Самодиагностика повышает эффективность, надежность, безопасность и увеличивает срок службы станков.

Следующий сценарий, для которого нужны данные, — это автоматизация. Исследователи тенденций в области автоматизации называют ее гиперавтоматизацией. Она помогает уже существующей автоматизации производственных процессов сделать новый рывок.

Стандартные данные от систем беспилотного (автономного) вождения и интеллектуальной робототехники используются для индивидуального обучения автономных промышленных транспортных средств и машин.

Третья область, в которой применяется ИИ, — это поиск новых знаний в инженерных системах. В данном случае цель заключается в том, чтобы найти первопричины проблем и контролировать риски с помощью ИИ.

ИИ способен сформировать реальное понимание ситуации помимо простого обнаружения аномалий и определения режимов отказа. Он находит связь между схожими инцидентами в прошлом и текущими показаниями датчиков. Это помогает предотвратить проблемы еще до их появления.

Определив области применения ИИ, можно найти общедоступные данные. Поскольку для многих промышленных применений требуются огромные массивы данных с датчиков, эти данные не всегда доступны для прямого скачивания.

Иногда требуется получить доступ к данным через указанный программный интерфейс (API), обеспечивающий подключение к существующим базам данных и позволяющий извлекать и анализировать их.

Примером может являться набор данных для решения задачи по прогнозному обслуживанию турбореактивного двигателя от NASA. Он предоставляет данные со 100 двигателей одной и той же модели. Информация включает четыре различных набора данных по двигателю, полученных с использованием имитатора авиационного двигателя C-MAPSS. Двигатели испытывали в различных условиях эксплуатации и режимах неисправности.

Данные по турбовентиляторному двигателю могут быть получены из прогнозного центра передовых знаний НАСА (NASA Prognostics Center of Excellence, PCoE). Этот отдел NASA имеет еще больше открытых наборов данных. Он содержит наборы данных от различных университетов, агентств или компаний.

Такие временные ряды помогают строить предсказательные модели. Они показывают переход двигателя из некоторого нормального состояния в неисправное. При этом репозиторий содержит данные для решения большого количества различных промышленных задач. Здесь можно найти данные по фрезеровке и испытанию подшипников, данные об электронных системах и аккумуляторах.

Более свободные и общедоступные репозитории имеются в Великобритании. Национальное хранилище данных по нефти и газу Великобритании, NDR, предоставляет 130 терабайт данных по морским исследованиям. Они включают данные о более чем 12 500 скважинах, 5000 сейсмических исследованиях и 3000 трубопроводов. Эти данные находятся в свободном доступе.

Но хранилище NRD не является исключительным для Великобритании. Такого рода национальные хранилища данных имеются во многих странах и предоставляют открытые данные при поддержке своих правительств.

Ценные данные, предоставляемые правительствами, не ограничиваются нефтегазовой отраслью. Британская геологическая служба также предоставляет большое количество наборов данных.

Она предоставляет сейсмограммы в режиме реального времени и архивные данные со своих более чем 100 сейсмографических станций, расположенных по всей Великобритании. Также здесь можно найти более 525 наборов данных по различным геологическим темам.

Лучший способ найти открытые источники данных для проекта — специальные поисковые системы, каталоги и агрегаторы. С помощью этих инструментов можно быстро найти подходящий набор данных, продираясь через джунгли доступных открытых источников данных.

Поиск по наборам данных Google, datasetsearch.research.google.com, предоставляет впечатляющий обзор имеющихся в свободном доступе наборов данных.

По результатам поиска система не только дает ссылку на хранилище, но и предусматривает предоставление непосредственной информации о форматах имеющихся данных и способах доступа к ним. Этот недавно опубликованный инструмент содержит около 25 млн общедоступных наборов данных.

Реестр хранилищ научных данных re3data.org, предлагает комплексный текстовый поиск по имеющимся репозиториям. Он имеет хороший графический инструмент исследования под названием «поиск по теме», помогающий найти открытые данные.

Что же касается прикладных исследований, то доступно лишь несколько результатов. Эта поисковая система не ведет непосредственно к данным. Она просто отправляет в хранилище, где продолжается поиск.

С помощью этих отправных точек вы быстро найдете нужные открытые данные. Открытые данные помогают запустить проект промышленного искусственного интеллекта, так что не требуется ждать, пока произойдет настройка рабочих датчиков всего предприятия.

#датасет #ИИ #обучение

Открытые источники данных для ИИ в промышленности

Почему источники данных важны для начала работы с ИИ

Переход от обучения к использованию

Проблема заключается не в том, что данных слишком мало, а в том, что их слишком много

Открытые источники данных, релевантные для промышленного искусственного интеллекта

Какие данные вам нужны

Основные поисковые системы для открытых данных