«День в стиле Ghibli»
Ручка в виде кредитки

Открытые источники данных для ИИ в промышленности

Консультант по промышленному интернету вещей и искусственному интеллекту компании “Цифра” Екатерина Ляпина рассказала, как оседлать волну внедрения ИИ, быстро приступить к экспериментам с использованием открытых данных и перейти к полномасштабному внедрению.

Открытые источники данных для ИИ в промышленности

При запуске нового проекта по расширению возможностей производственного объекта на основе искусственного интеллекта возникает вопрос, а возможно ли что-то сделать в принципе.

Промышленный ИИ требует большого количества данных для подготовки базовых алгоритмов. Такие данные генерируются работающими системами. Но зачастую эти данные замкнуты в себе или базы данных не связаны между собой. Они могут оставаться недоступными для команды, задачей которой является внедрение ИИ в корпорацию, если в ней ее собственные данные недоступны для построения таких систем.

И из-за временных и бюджетных ограничений команда разработчиков сталкивается с вопросом получения данных для обучения системы.

Почему источники данных важны для начала работы с ИИ

Системы прогнозирования, полностью автоматизированные системы и системы управления знаниями требуют надлежащей подготовки данных. Качество данных определяет результат работы систем ИИ.

Если корректных данных недостаточно, результаты такого обучения зачастую оказываются непригодными для использования. Иначе говоря, ИИ не способен выстраивать необходимые абстракции, которые обеспечивали бы выдающиеся результаты.

Несмотря на то что существуют методы обучения с подкреплением, не требующие наличия исходных данных, использование алгоритмов обучения с учителем, в том числе систем глубокого обучения, требует больших объемов размеченных данных.

Переход от обучения к использованию

При запуске проекта по ИИ в промышленности необходимо учитывать общий цикл таких проектов. На первом этапе необходимо получить доступ к соответствующим накопленным данным, которые могут иметь форму файлов, баз данных с необходимой информацией, или озёр данных.

Озеро данных содержит неструктурированные и структурированные данные. Как правило, формат данных в таком озере достаточно сырой и неструктурированный. Это означает, что предварительная обработка данных, поступающих в озеро из разных источников, отсутствует. Сбор данных происходит с соответствующих датчиков или архивных записей. Это не только табличные данные, но и изображения, видео или аудиозаписи.

На следующем этапе данные проходят предварительную обработку. Здесь происходит очистка данных. Они визуализируются, так чтобы эксперты в данной области могли оценить их качество. На этом этапе сырые необработанные данные становятся более информативными.

Например, эти данные являются основой для разработки прогнозных моделей. Для обработки данных обычно применяются алгоритмы машинного обучения. Специалист по анализу данных может использовать модели нейронных сетей, эффективность применения которых подлежит проверке на новых неизвестных данных после этапа обучения.

Этап обучения включает несколько циклов обратной связи, чтобы понять, решают ли результаты обучения модели поставленную бизнес задачу.

Наконец, готовые к использованию модели ИИ должны быть интегрированы в масштабе предприятия. Эта интеграция является двойственной.

С одной стороны, существуют решения ИИ, работающие на конечных устройствах, которые находятся непосредственно на объекте. С другой стороны, существует интеграция в корпоративные системы в виде микросервисов. В любом случае модели должны быть адаптированы к существующим операциям.

Проблема заключается не в том, что данных слишком мало, а в том, что их слишком много

Где найти данные для обучения нейронных сетей и других алгоритмов машинного обучения? Несмотря на то что данные уже окрестили новой нефтью, может оказаться так, что найти источники данных за пределами предприятия сложно.

Промышленные компании оставляют свои данные для собственного использования. Тем не менее есть, например, ИТ-компании, которые прошли эту фазу хранения данных и исходных кодов для собственного использования. Однако некоторые немногочисленные компании продолжают это делать и по сей день.

Но в последние годы невообразимый успех выпал на долю систем с открытым исходным кодом. Даже такой поклонник «проприетарного» ПО, как Microsoft, вступил в ряды сторонников open source. Совместное использование данных и ПО открывает новые возможности для бизнеса и приносит пользу всей индустрии. Вот почему промышленные ассоциации и консорциумы начинают работу по обмену данными.

Еще одним источником бесплатных и открытых данных являются разработки и исследования, финансируемые государством. Такие организации, как NASA и ЦЕРН, предоставляют много ценных данных. Эти наборы данных используются для решения общих задач и испытаний новых алгоритмов. Если задаться целью поиска доступных данных в Интернете, то поразит прежде всего их обилие.

Но с этими данными есть проблема. Искусственный интеллект — актуальная тема, и многие жаждут внимания. Поэтому зачастую оказывается сложно решить, какие открытые данные подходят для того или иного конкретного проекта.

Существует множество неструктурированных наборов данных, плохого качества или просто плохо описанных. ИИ используется в различных областях и применяется для очень разных сценариев, поэтому существует множество наборов данных, не соответствующих вашим потребностям.

Открытые источники данных, релевантные для промышленного искусственного интеллекта

Если сфокусироваться на прикладном промышленном ИИ, то можно обнаружить, что ИИ применим ко многим продуктам и услугам. Его применение позволяет производителям обеспечивать новые сервисы для клиентов. Например, станки с самодиагностикой улучшают общую производительность производственных линий. Самодиагностика повышает эффективность, надежность, безопасность и увеличивает срок службы станков.

Следующий сценарий, для которого нужны данные, — это автоматизация. Исследователи тенденций в области автоматизации называют ее гиперавтоматизацией. Она помогает уже существующей автоматизации производственных процессов сделать новый рывок.

Стандартные данные от систем беспилотного (автономного) вождения и интеллектуальной робототехники используются для индивидуального обучения автономных промышленных транспортных средств и машин.

Третья область, в которой применяется ИИ, — это поиск новых знаний в инженерных системах. В данном случае цель заключается в том, чтобы найти первопричины проблем и контролировать риски с помощью ИИ.

ИИ способен сформировать реальное понимание ситуации помимо простого обнаружения аномалий и определения режимов отказа. Он находит связь между схожими инцидентами в прошлом и текущими показаниями датчиков. Это помогает предотвратить проблемы еще до их появления.

Какие данные вам нужны

Определив области применения ИИ, можно найти общедоступные данные. Поскольку для многих промышленных применений требуются огромные массивы данных с датчиков, эти данные не всегда доступны для прямого скачивания.

Иногда требуется получить доступ к данным через указанный программный интерфейс (API), обеспечивающий подключение к существующим базам данных и позволяющий извлекать и анализировать их.

Примером может являться набор данных для решения задачи по прогнозному обслуживанию турбореактивного двигателя от NASA. Он предоставляет данные со 100 двигателей одной и той же модели. Информация включает четыре различных набора данных по двигателю, полученных с использованием имитатора авиационного двигателя C-MAPSS. Двигатели испытывали в различных условиях эксплуатации и режимах неисправности.

Данные по турбовентиляторному двигателю могут быть получены из прогнозного центра передовых знаний НАСА (NASA Prognostics Center of Excellence, PCoE). Этот отдел NASA имеет еще больше открытых наборов данных. Он содержит наборы данных от различных университетов, агентств или компаний.

Такие временные ряды помогают строить предсказательные модели. Они показывают переход двигателя из некоторого нормального состояния в неисправное. При этом репозиторий содержит данные для решения большого количества различных промышленных задач. Здесь можно найти данные по фрезеровке и испытанию подшипников, данные об электронных системах и аккумуляторах.

Более свободные и общедоступные репозитории имеются в Великобритании. Национальное хранилище данных по нефти и газу Великобритании, NDR, предоставляет 130 терабайт данных по морским исследованиям. Они включают данные о более чем 12 500 скважинах, 5000 сейсмических исследованиях и 3000 трубопроводов. Эти данные находятся в свободном доступе.

Но хранилище NRD не является исключительным для Великобритании. Такого рода национальные хранилища данных имеются во многих странах и предоставляют открытые данные при поддержке своих правительств.

Ценные данные, предоставляемые правительствами, не ограничиваются нефтегазовой отраслью. Британская геологическая служба также предоставляет большое количество наборов данных.

Она предоставляет сейсмограммы в режиме реального времени и архивные данные со своих более чем 100 сейсмографических станций, расположенных по всей Великобритании. Также здесь можно найти более 525 наборов данных по различным геологическим темам.

Основные поисковые системы для открытых данных

Лучший способ найти открытые источники данных для проекта — специальные поисковые системы, каталоги и агрегаторы. С помощью этих инструментов можно быстро найти подходящий набор данных, продираясь через джунгли доступных открытых источников данных.

Поиск по наборам данных Google, datasetsearch.research.google.com, предоставляет впечатляющий обзор имеющихся в свободном доступе наборов данных.

По результатам поиска система не только дает ссылку на хранилище, но и предусматривает предоставление непосредственной информации о форматах имеющихся данных и способах доступа к ним. Этот недавно опубликованный инструмент содержит около 25 млн общедоступных наборов данных.

Реестр хранилищ научных данных re3data.org, предлагает комплексный текстовый поиск по имеющимся репозиториям. Он имеет хороший графический инструмент исследования под названием «поиск по теме», помогающий найти открытые данные.

Что же касается прикладных исследований, то доступно лишь несколько результатов. Эта поисковая система не ведет непосредственно к данным. Она просто отправляет в хранилище, где продолжается поиск.

С помощью этих отправных точек вы быстро найдете нужные открытые данные. Открытые данные помогают запустить проект промышленного искусственного интеллекта, так что не требуется ждать, пока произойдет настройка рабочих датчиков всего предприятия.

1515
реклама
разместить
4 комментария

Я бы к специальным поискам добавил поиск по патентам.  https://books.google.com/advanced_patent_search

5

Спасибо

2

Как мне помогут данные наса и нефтяников предлагать рекламу на моем сайте?

1

Здравствуйте. Мы занимаемся промышленным интернетом вещей и промышленным искусственным интеллектом и пишем об этом. См. заголовок.

3
«Реклама и SEO-мусор испортили поисковики, теперь ChatGPT, Perplexity, Claude и даже собственный ИИ Google ищут информацию лучше»

Но «классический поиск» всё ещё может быть хорош — например, если нужно найти конкретную страницу, считает старший обозреватель The Wall Street Journal Джоанна Стёрн.

1010
11
11
11
Эта проблема заключается в том, что приоритеты другие, они не развивают поиск. У того же Google вообще куча практически заброшенных сервисов, экосистема говно, много чего не заброшенного, но не развивается должным образом. У меня иногда возникает ощущение, что эти товарищи сами не пользуются тем, что делают. Многое можно улучшать и улучшать ещё, но им похер, Google может легко превратится в подобие рамблера, дело времени. Кто бы что не говорил, но поиск нужен, интернет должен быть децентрализован, а они всё пытаются централизовать, то соц.сети, то ИИ чат-боты.
Я видел штрафы на маркетплейсах 5 000 000 рублей и больше. Поэтому, сделал бесплатный бот, чтобы селлеры могли защитить свои права

Ходят легенды, что работники склада ВБ используют рулетки, которые начинаются с 5 см. Как думаете, правда или вымысел? Но сегодня не про легенды. Я придумал бота, который поможет сразу узнать за что селлеры получают штраф и какие действия предпринять, чтобы урегулировать конфликт с маркетплесом.

Я видел штрафы на маркетплейсах 5 000 000 рублей и больше. Поэтому, сделал бесплатный бот, чтобы селлеры могли защитить свои права
88
77
11
Памятка по «доступности» в AR, кейс ResearchOps в медицине, исследования доверия к ИИ: главное в дизайне за февраль

Традиционный дайджест Юрия Ветрова.

11
Компания Figure обучила своих роботов естественной человеческой походке

Почему это заслуживает внимания? Потому что это была нетривиальная техническая задача! С помощью сложной модели гуманоидного робота Figure 02 обучили ходить, как человека.

55
44
33
Феномен Гребенюка: Как от учителя по истории дойти до самого популярного предпринимателя в России

Я человек разносторонний, отдал 13 лет бальным танцам, где работал со своей будущей женой, поработал учителем по обществознанию и истории 2 года, учителем много не заработаешь, поэтому я..

Феномен Гребенюка: Как от учителя по истории дойти до самого популярного предпринимателя в России
3737
1818
11
Опять инфоцыгане, все из бизнес молодости…
О редизайне и ребрендинге простыми словами. Гайд на рост прибыли бизнеса с помощью обновления дизайна бренда.
О редизайне и ребрендинге простыми словами. Гайд на рост прибыли бизнеса с помощью обновления дизайна бренда.

Эта статья — практическое руководство, которое поможет вам понять когда настает пора обновлять дизайн бренда и сайт компании. Как найти точки роста бизнеса за счет правильного дизайна, созданного под актуальный запрос вашей целевой аудитории и как не сойти при этом с ума.

44
33
11
50 лучших идей подарков для дяди на день рождения
50 лучших идей подарков для дяди на день рождения
Массовой подмены трудовых отношений «наймом» самозанятых нет, а компании, которые так делают, — «как на ладони»: ФНС — о самозанятости в России
2323
77
33
11
«а компании, которые так делают, — как на ладони» _ Ну тоисть на лапу дают, да?
Маркетинг мёртв: 3 самых бесполезных вещи, на которые вы сливаете бюджет

Мы живём в то время, когда каждый второй маркетолог называет себя "диджитал-стратегом", "трансформационным лидером" или ещё каким-нибудь придурком, не несущим в себе никакого смысла. За этими громкими титулами скрывается одно — тотальная профнепригодность

Маркетинг мёртв: 3 самых бесполезных вещи, на которые вы сливаете бюджет
1212
77
реклама
разместить
Ещё один неверный шаг, и я бы потерял 1,5 млн ₽ на ровном месте? Не знал что реальность такая…

С такими слова обратился ко мне некий Никита.

Никита, не в обиду)) Самое главное, что мы справились. 💪
1515
11
Мультиканальность для бизнеса: временный тренд или новая реальность

Сегодня соцсети меняют алгоритмы, завтра рекламные кабинеты становятся неэффективными, а послезавтра привычные площадки перестают работать. И если для стабильности человеку нужна подушка безопасности, то бизнесу желательно иметь несколько одновременно развивающихся площадок.

Мультиканальность для бизнеса: временный тренд или новая реальность
1111
22
11
Вложил 300 тысяч в онлайн и потерял все деньги. Как это было и почему: разбор на личном опыте.

Всем вам уже надоели эти эксперты, которые трубят из каждой подворотни о том, что бизнес в онлайне - это лучшая ниша. Но лично я на своем опыте убедился в обратном, и давайте разберем, как же это было

Вложил 300 тысяч в онлайн и потерял все деньги. Как это было и почему: разбор на личном опыте.
1919
22
22
Давно не видел более тупой и очевидной саморекламы