{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Критический подход к анализу данных и выбору методологии в инженерных и строительных проектах

1 . Введение

Недавно была опубликована статья Си Чен и соавторов, которая исследует использование причинно-следственной связи для предотвращения ошибок в параметрическом анализе на основе данных.

Статья ориентирована на архитектурную, инженерную и строительную отрасли и подчеркивает важность каузального анализа для обеспечения точности и надежности проектных решений.

В моем анализе были рассмотрены рисунки и схемы, которые демонстрируют сложные причинно-следственные отношения и как они влияют на показатели энергоэффективности зданий. Эти визуальные данные помогают наглядно продемонстрировать, как неправильный выбор параметров или игнорирование причинно-следственных связей может привести к ошибочным выводам и решениям.

Ученые попробовали объединить опыт, моделирования и анализа данных, чтобы усовершенствовать инженерный анализ. Эта методика помогает точнее предсказывать результаты, например, в проектировании зданий, и применима к разным задачам. В работе выделяется важность анализа причин и следствий для всех данных в инженерных проектах, чтобы избежать ошибок и укрепить связь между машинным обучением и реальными процессами. На рисунке видно, как традиционные методы моделирования дополняются причинно-следственным анализом, что повышает точность и надежность инженерных решений.

Рисунок 1 . Иллюстрация потенциально синергетического характера трех основных процессов инженерного моделирования. Причинно-следственные зависимости, извлеченные из данных

На рис. 1 графически показано, как эти причинно-следственные зависимости, обнаруженные на основе данных, взаимодействуют с эмпирическими знаниями и моделированием на основе первых принципов, а также с подходами, основанными на данных. Таким образом, причинно-следственные зависимости становятся жизненно важным средством связи между необработанными данными и усовершенствованными методологиями, предлагая пользователям основу для перекрестной проверки результатов модели с учетом их опыта в предметной области. Это взаимодействие по своей сути нелинейно и динамично, ставя пользователя в центр процесса. Используя совокупность результатов и информации, пользователь перемещается по корректировкам и решениям, которые могут либо вернуться в непрерывный цикл уточнения, как показано на рисунке, либо завершиться окончательным результатом. Этот итеративный цикл подчеркивает суть нашего подхода: ориентированную на пользователя модель, которая использует синергию методологий для достижения надежного и обоснованного принятия решений в области разработки.

На рисунке красные стрелки указывают, как причинно-следственные связи взаимодействуют с другими подходами инженерного моделирования. Причинность обычно путают с корреляцией, но первая интерпретируется иначе, чем данные наблюдений: она анализирует асимметричные изменения и реакции между причиной и следствием, помогает анализировать сценарии вмешательства, контрфакты и отвечает на вопросы «что, если». Эта способность к рассуждению необходима для информативной и последовательной поддержки принятия решений. Кроме того, извлеченная информация о причинно-следственных связях обеспечивает пользователям обратную связь для проверки и обновления своих знаний в предметной области, способствуя беспристрастному моделированию.

2 . Структура и методологии

2.1 . Синергетическая структура между знаниями, моделированием и методами, основанными на данных.

В инженерии инструменты, которые мы используем для моделирования и принятия решений, можно разделить на три основные категории: знание эмпирической области , моделирование на основе первых принципов и модели, управляемые данными :

  • Эмпирические знания являются носителем индивидуального и прошлого профессионального опыта, обеспечивая фундаментальное стремление понимать, взаимодействовать и принимать решения в системе. Сюда входят эвристические правила или «эмпирические правила» – быстрый, интуитивно понятный набор информации. Однако он ограничен личной компетентностью и часто не имеет воспроизводимости.
  • Моделирование на основе первых принципов — это процесс, основанный на абстрактной символической абстракции, использующий математические уравнения и физические/химические законы для управления поведением системы. Моделирование на основе первых принципов, начиная с базовых принципов и заканчивая пониманием сложных явлений, также называют «моделями белого ящика».
  • •Метод, управляемый данными, — это вычислительный процесс, основанный на доступных данных, а не на теоретических принципах или физических законах. В этих процессах используются алгоритмы машинного обучения , статистические модели и методы анализа данных для извлечения закономерностей и связей из наборов данных. Эти шаблоны затем используются для прогнозирования или получения информации о системе, действуя как «модели черного ящика».
Таблица 1 . Особенности использования эмпирических знаний, первых принципов моделирования и подхода, основанного на данных, для инженерного моделирования.

Таблица иллюстрирует основные преимущества и недостатки этих трех основных категорий, на которые мы полагаемся в инженерии.

2.2 . Причинность

Исследование причинно-следственных связей стало важной темой и внесло существенный вклад в различные области благодаря широкому внедрению методов, основанных на данных. Причинно-следственный вывод исследует параметры или свойства, рассматривая причинно-следственные логические последовательности, чтобы избежать нереалистичных выводов.

Алгоритмы причинно-следственного поиска — это методы идентификации и возврата классов эквивалентности правильной причинной структуры на основе данных наблюдений неконтролируемым и управляемым данными способом. По сути, они различают асимметрию в распределениях выборки, чтобы определить зависимости признаков и причинно-следственные связи.

Направленные ациклические графы (DAG) — это графовые диаграммы, состоящие из переменных (узлов), соединенных однонаправленными стрелками (путями) для изображения гипотетических причинно-следственных связей. Причинный скелет DAG с фиксированной структурой включает причинные зависимости заданных данных. Для подробного разбора представлена демонстрация DAG с простыми случаями в области проектирования зданий . Основные термины и типы в комбинациях структур DAG:

  • Направленный путь обозначает направленное ребро.
  • Смешивающая структура ( рисунок , слева) возникает, когда две переменные связаны общей причиной (конфаундер), которая не учитывается, что потенциально приводит к смещению.
  • Структура коллайдера ( рисунок, справа) существует, когда две переменные влияют на общий результат. Контроль этого результата вызывает ложную связь между переменными, которая также известна как путь через черный ход.
  • Путь существует в двух переменных в смешанной структуре, где общая причина не контролируется, или в двух переменных в структуре коллайдера, где контролируется общий эффект, переменные эффекта, связанные этим путем, имеют непричинную связь и могут привести к потенциальная предвзятость с искажающей ассоциацией.
  • Замкнутый путь существует в структурах коллайдера, где две переменные имеют одинаковый результат. В отличие от направленных и скрытых путей, этот путь не имеет причинно-следственной связи: между двумя переменными-причинами через структуру коллайдера не существует причинно-следственного пути, если только общий результат не контролируется.
Рис. 2 . Примеры причинно-следственных связей и коллайдеров в контексте архитектурной инженерии . 

Неспособность определить причинно-следственную связь приводит к ложной связи (черному пути) и предвзятым результатам. Слева: смещение, искажающее результат, когда общая причина не контролируется (отсутствие контроля над «площадью здания» приведет к тому, что модель, основанная на данных, рассмотрит возможность корректировки прочности конструкции здания для изменения энергопотребления здания); Справа: смещение коллайдера, когда общий эффект контролируется (контроль «стоимости эксплуатации здания» заставит управляемую данными модель корректировать площадь здания для внесения изменений в заполняемость здания).

3 . Исследование

В качестве объекта ученые исследовали, как разные строительные решения влияют на потребление энергии для отопления, изменяя стандарты изоляции и типы отопления. Используя параметрическую модель офисного здания, создали набор данных для тренировки наших моделей машинного обучения. Это подтверждается на реальном проекте - четырехэтажном здании в Германии. Ученые тестировали разные тепловые характеристики по стандартам от базовых до передовых и использовали разные системы отопления. В анализе применялись модели машинного обучения, включая дерево решений и искусственные нейронные сети, и оценивались с помощью метрик, таких как NRMSE и R-квадрат, для сравнения производительности моделей.

Имея набор обучающих данных и тестовый пример, ученые сначала создали два сценария:

  • Сценарий I : Полномасштабное моделирование со всеми входными функциями для прогнозирования нагрева EUI в качестве эталона.
  • Сценарий II : Маскированные входные объекты, которые представляют собой типичные ситуации в реальных инженерных сценариях — выбор функций на основе знаний предметной области или только некоторые функции наблюдаемы/доступны во время сбора данных.

3.2 . Тест и последствия

В таблицы представлены результаты прогнозирования различных моделей, оснащенных обучающими данными в рамках обоих сценариев. Результаты демонстрируют возможности модели в этом обучающем случае; все методы машинного обучения, обученные с использованием всех функций ввода, показывают приемлемую производительность. R 2 всех моделей превышает 0,85, тогда как ANN и NGBoost достигают точности выше 0,95. При настройке скрытых функций, но с тем же процессом обучения, что и в сценарии I, результат показывает лишь незначительную разницу в производительности между сценариями I и II при мониторинге точности их ML. Исследователи даже наблюдали небольшое улучшение производительности SVR в сценарии II. Результаты NRMSE и SMAPE также согласуются с этой интерпретацией .

Таблица 2. Пятикратное сравнение результатов перекрестной проверки производительности различных моделей: сценарии I и II.

Затем тестовый пример вводится с вариациями стандарта изоляции и энергетической системы в обученные модели для обоих сценариев. Соответствующие результаты для различных комбинаций вариаций и проиллюстрировали на рисунке 3.

Рис. 3. Результат прогнозирования тестового примера на основе: (a) Сценария I, обученного с полномасштабными функциями; (б) Обучение по сценарию II с использованием замаскированных функций, выбранных вручную на основе знаний предметной области.

Это приводит к предвзятому результату прогнозирующих моделей машинного обучения: более высокий стандарт энергопотребления приводит к более высокому энергопотреблению! В обоих подграфах левая часть показывает выбранные функции с установленными воздействиями (входные данные лечения, которые мы хотим варьировать) и результатом, основанным на сценарии, а правая часть представляет собой результат прогнозирования в тестовом примере: на оси Y перечислены различные комбинации стандарт изоляции и настройка системы отопления, а по оси X отложен результат прогнозирования нагрева EUI по разным моделям (по разным маркерам).

По результатам сценария I (рисунок 3 а , справа) исследователи пришли к следующим выводам:

  • 1.Результаты прогнозирования тестовых примеров от ANN и NGBoost более похожи; они также достигают большей точности при оценке тренировочного процесса.
  • 2.Выбор энергетической системы является фактором, который больше всего влияет на отопление ЭУИ: система воздушного теплового насоса (ВТН) требует наименьшего энергопотребления, а котельная – наибольшего.
  • 3.Независимо от вариаций системы отопления, более высокие тепловые стандарты для компонентов здания, как и ожидалось, способствуют снижению общего энергопотребления.

При почти такой же точности результаты прогнозирования тестового примера в сценарии II демонстрируют необычные закономерности, которые противоречат интуиции предметной области, как показано на рисунке 3 б . Хотя выбор системы отопления по-прежнему оказывает детерминированное влияние на отопление EUI, в изменении стандартов изоляции тенденция действует противоположно: разница между стандартами изоляции зданий либо едва заметна, либо даже представляет собой обратную тенденцию. При одном и том же выборе системы отопления более высокий стандарт изоляции приводит к большему потреблению энергии на отопление. Эта противоположная тенденция проявляется даже в ИНС, которая достигает 0,94 в R 2 во время оценки производительности.

На основании результатов Сценария II можно легко сделать неправильные выводы , потенциально вводящие в заблуждение процесс принятия решений в реальных проектах или исследованиях, например:

«В этом случае выбор стандарта изоляции не имеет значения, или адаптация более низкого стандарта изоляции может помочь снизить потребление энергии в здании».

3.3 . Анализ причинно-следственных связей

С точки зрения анализа причинно-следственных связей, скрытые связи между входными признаками вызывают предвзятые результаты, наблюдаемые в сценарии II. При обнаружение AEC причин может помочь дизайнерам и инженерам всесторонне изучить, были ли проигнорированы скрытые связи, и, контролируя их соответствующим образом, избежать субъективной предвзятости и предвзятой оценки. Для более интуитивной инженерной интерпретации и оценки представим последовательный процесс анализа причинно-следственных связей, чтобы продемонстрировать, что анализ помогает избежать ситуации с последствиями, как показано на рисунке 4.

Рис. 4 . Процесс анализа причинно-следственных зависимостей, пунктир — содержание рисунке 3.

Поиск причинно-следственной структуры с помощью GES: извлечение знаний на основе набора обучающих данных. Незначительные изменения скелета, внесенные с помощью знаний предметной области, отмечены оранжевым цветом; (c), (d) и (e): сценарий I; (f), (g) и (h): Сценарий II: Блокирование зоны строительства приводит к смещению коллайдера, поскольку оно закрывает прямой причинный путь от Стандарта изоляции → Зона строительства → Отопление EUI и открывает путь смещения от Стандарта изоляции → Площадь → Том → Нагрев EUI, что приводит к ложному заключению; (i), (j) и (k): Скорректированный сценарий II без смещения пути

Первым шагом анализа причинных зависимостей является причинно-следственное обнаружение, которое отвечает за извлечение причинно-следственной связи из обучающих данных без присмотра. Скелет и процесс сами по себе являются критически важным связующим звеном для соединения результатов, основанных на данных, с проверкой знаний предметной области посредством сокращения причинно-следственного скелета.

  • 1.Добавление причинно-следственной зависимости (стрелка) от соотношения окон и стен (WWR) к EUI Heating, поскольку причинно-следственная связь между этими двумя переменными несколько косвенная. Это связано с тем, что мы вручную объединили все WWR в один для более упрощенной иллюстрации.
  • 2.Замена двунаправленной стрелки между количеством этажей и площадью однонаправленной стрелкой, поскольку количество этажей обычно является переменной, заданной на основе городских правил, определяющих возможную площадь этажа на конкретном участке.

После создания причинного скелета входные данные воздействия ( стандарт изоляции и система отопления ) и целевой результат ( нагрев EUI ) интегрируются в скелет, тем самым устанавливая причинный поток. Основываясь на скелете и настройках сценария, они определили три важнейших промежуточных характеристики : соотношение окон и стен, объем и площадь застройки. Эти функции демонстрируют прямые причинно-следственные связи с целевым результатом и одновременно несут причинно-следственные зависимости с другими функциями модели.

Среди этих трех функций наиболее важной является площадь строительства : это единственная функция, которая имеет общую причину с результатом ( нагрев EUI ), а общей причиной является один из входных факторов воздействия ( стандарт изоляции ). Это ожидаемо, учитывая, что площадь строительства является входными данными для оценки EUI. Фактически, сообщение/знания причинно-следственного анализа дают следующее: Как общая причина результата, блокирование/контроль области строительства приводит к смещенному результату (смещение коллайдера) , поскольку оно закрывает причинный путь от: Стандарт изоляции → Область строительства. → Нагрев EUI и откройте путь смещения (обходное соединение от воздействия на результат) следующим образом: Стандарт изоляции → Площадь → Объем → Нагрев EUI. Это объясняет необычные результаты прогнозирования в Сценарии II с изменениями в стандарте изоляции . Чтобы правильно оценить прямое влияние стандарта изоляции на отопление EUI, нам следует либо включить в модель функцию « Площадь строительства» , чтобы оставить причинно-следственную связь открытой, либо нам нужно исключить « Площадь строительства», «Площадь» и «Объем» вместе, чтобы избежать пути смещения. Другими словами, существуют причинно-следственные зависимости между стандартом изоляции здания, площадью строительства, площадью здания и объемом; контроль промежуточного и изменение остальных приводит к предвзятой ситуации выборки.

Выводимая интерпретация с точки зрения инженерной области : этот причинно-следственный вывод, упомянутый выше, является выводным и может выдержать перекрестную проверку знаний предметной области, поскольку область строительства служит общим эффектом, отражающим конфигурацию территории здания и стандарты изоляции здания: это важно Следует отметить, что увеличение площади и объема здания не обязательно приводит к пропорциональному увеличению площади застройки. Следовательно, по мере увеличения общей площади здания доля площади застройки соответственно сокращается. Между тем, более высокие стандарты изоляции зданий коррелируют с лучшими показателями теплоизоляции фасадов зданий. Лучшая изоляция обычно означает установку более толстой конструкции, что приводит к увеличению площади строительства.

Опираясь на выводы приведенного выше анализа причинно-следственных связей, авторы смогли констатировать:

«Чтобы правильно исследовать причинно-следственную связь между Стандартом изоляции и EUI, не следует игнорировать зону строительства для объективной оценки эффекта».

При выборе тех же функций, что и в сценарии II, дополнительно включается площадь строительства . Соответствующая производительность с обновленным набором функций показан на рисунке 4.

Причинно-следственный анализ также может способствовать определению минимального количества необходимых переменных благодаря концепции «минимальных достаточных наборов корректировок». Причинно-следственная группа DAG помогает ответить на следующий общий вопрос в процессе, управляемом данными:

«Какие переменные (признаки) нам следует включить в нашу модель, чтобы получить объективную оценку эффекта?»

«Минимально достаточный набор корректировок» относится к наименьшему набору переменных, которые необходимо скорректировать для надежной оценки причинно-следственного эффекта, который предоставляет важную информацию, помогающую пользователю собрать минимальные, но необходимые характеристики для объективного прогноза. Эти наборы можно идентифицировать вручную или с помощью компьютерного пакета .

Возьмем, к примеру, наш случай: один минимальный достаточный набор корректировок будет включать в себя: Площадь застройки , Высота этажа и Объем . Скелет приведен на рисунке 5. В результате наблюдаем такую же несмещенную тенденцию в прогнозировании случаев, как и в сценарии I ( рисунок 3а.). В сочетании с результатом прогнозирования получаем потенциал открытия знаний в инженерных сценариях путем интерпретации функций, присутствующих в минимально достаточном наборе корректировок.

Рис. 5 . Минимально достаточный набор корректировок в зависимости от случая: с высотой этажа, объемом и площадью застройки в качестве дополнительных входных данных модель генерирует несмещенную оценку с достаточной информацией из набора данных.

Наконец, важно отметить, что DAG и минимально достаточный набор корректировок предоставляют идентификационную информацию исключительно для обеспечения объективной оценки, а не для улучшения производительности оценки. В инженерном контексте этот управляемый данными процесс должен быть связан со знаниями предметной области и, таким образом, иметь контекст для сценария конкретной задачи для дальнейшего анализа.

Данное исследование демонстрирует, что ошибки в моделях, управляемых данными, могут быть очевидны, но их обнаружение зачастую сложно, что может подорвать доверие к данным методам. Такие ошибки и риски искажения информации присутствуют и в моделировании, основанном на первых принципах, где существующие предубеждения часто остаются незамеченными из-за их традиционности. Предвзятость подтверждения, когда инженеры предпочитают подтверждающую информацию, ведет к искажению знаний. Предлагается использование причинно-следственного анализа для выявления ошибок и укрепления знаний, утверждая, что совмещение данных и первых принципов может уменьшить предвзятое восприятие. Однако выбор функций остается дилеммой между точностью и уменьшением предвзятости. Предложено внедрение механизмов проверки причинно-следственных выводов в методологию, основанную на данных, для улучшения интеграции знаний о процессах. Необходимость дальнейших исследований подчеркивается для проверки и обобщения методологии. Отмечается, что подход к причинному анализу может быть применим в разных инженерных областях, способствуя синергии между данными и моделированием.
В свою очередь после анализа данной статья я задалась следующими вопросами:
1. Какие конкретные механизмы и инструменты могут быть использованы для управления когнитивными предубеждениями в процессе инженерного моделирования?
2. Как можно количественно оценить влияние выбора функций на точность и предвзятость анализа в инженерных приложениях?
3. В какой степени интеграция причинно-следственного анализа с методами, основанными на данных, может реально улучшить результаты моделирования в сравнении с традиционными подходами?
4. Каковы потенциальные вызовы и ограничения при внедрении методологии машинного обучения с учетом физики в существующие процессы моделирования?
5. Каковы наилучшие практики для выбора и применения функций в моделировании, чтобы максимизировать точность, минимизируя риски предвзятого анализа?

Уже просмотрели все обучающие материалы по анализу данных и хотите больше? Хотите узнать, как эти навыки можно применить в реальном мире строительства, проектирования, управления проектами и энергетики?

🔗 Тогда вам нужно присоединиться к нашему каналу в Телеграм - https://t.me/Analyze_this_WITH_ME

🧰 У нас есть все необходимое: от базовых знаний до продвинутых стратегий, которые помогут вам максимизировать эффективность использования данных в ваших проектах.

🚀 Вместе мы углубимся в анализ данных, исследуем новые технологии, применим современные методы в проектах и расширим наши горизонты в мире энергетики.

🏗 Узнайте, какие инновации меняют лицо строительства и проектирования, и как вы можете использовать их в своих проектах.

💡 Присоединяйтесь к нам сегодня и начните использовать силу данных для улучшения своих проектов!

0
Комментарии
-3 комментариев
Раскрывать всегда