Страхи искусственного интеллекта-Качество данных

Способность инструментов генеративного ИИ (GenAI) выдавать точные и надежные результаты полностью зависит от точности и надежности данных, используемых для обучения больших языковых моделей (LLM), на которых базируется инструмент GenAI. К сожалению, закон GIGO - Garbage In, Garbage Out - угрожает широкому распространению GenAI. Будь то подготовка управленческих отчетов или разработка моделей машинного обучения, точность, качество и надежность аналитических результатов неразрывно связаны с точностью, качеством и надежностью исходных данных.

Страхи искусственного интеллекта-Качество данных

Инструменты GenAI обладают невероятными суперспособностями, такими как создание реалистичных изображений, написание увлекательных текстов, сочинение оригинальной музыки, написание программного кода, исследование операционных проблем и многое другое. К сожалению, как у Супермена есть слабость к криптониту, так и у моделей ИИ есть слабость к низкому качеству данных. Низкое качество данных может ухудшить работу ИИ-моделей и привести к ненадежным или вредным результатам. Например, если модель искусственного интеллекта обучена на данных, содержащих смещения, ошибки или несоответствия, то она будет генерировать результаты, содержащие смещения, ошибки или несоответствия. Это может привести к серьезным последствиям, таким как дискриминация, дезинформация или потеря доверия.

Страхи искусственного интеллекта-Качество данных

Качество данных - это криптонит моделей ИИ, и при создании приложений GenAI мы должны уделять качеству данных первостепенное внимание. В противном случае мы можем получить супермена, который окажется не таким уж и суперменом.

И хотя качество данных - это проблема, с которой приходится сталкиваться в любой отрасли, нигде ее последствия не являются более серьезными, чем в здравоохранении.

Реинжиниринг данных о здоровье пациента

Исследуя следующий вопрос: "Какой процент медицинских карт пациентов содержит неточные данные из-за того, что медсестры, врачи и администраторы переработали их по соображениям страхования и ответственности?", дало несколько тревожных результатов.

Исследования показали, что такая практика может быть более распространенной, чем предполагалось, и может негативно влиять на безопасность пациентов и качество обслуживания. По данным одного из исследований 2018 года, 28% медсестер признались, что вносили изменения в записи пациентов, чтобы избежать обвинений или судебных разбирательств, а 31% заявили, что были свидетелями того, как их коллеги поступали подобным образом. Другое исследование, проведенное в 2019 году, показало, что 18% врачей в течение последнего года сознательно манипулировали клинической информацией или скрывали ее, чтобы повысить размер своего вознаграждения или снизить ответственность. Эти данные свидетельствуют о том, что реинжиниринг данных - не редкое явление, а широко распространенная и системная проблема в здравоохранении.

Реинжиниринг данных может повлиять на точность и полноту медицинской документации пациента, что приводит к ошибкам в диагностике, лечении, выставлении счетов и отчетности. Например, если медсестра записывает жизненно важные показатели пациента как нормальные, а на самом деле они ненормальные, это может привести к задержке обнаружения тяжелого состояния или осложнения. Если врач кодирует диагноз пациента как более серьезный, чем он есть на самом деле, это может привести к избыточному лечению, ненужным обследованиям или увеличению расходов.

Реорганизация данных во избежание проблем со страховыми выплатами и юридической ответственностью может существенно затруднить использование ИИ для достижения лучших результатов лечения пациентов, более разумных цен и улучшения условий труда медицинских работников, что может изменить кривую экономической стоимости в здравоохранении (рис. 1).

И не только системы здравоохранения вынуждены иметь дело с перестроенными и искаженными данными. Использование ИИ при принятии судебных решений может привести к неточным и ненадежным результатам из-за искажения данных, вносимого сделками о признании вины.

Сделка о признании вины подразумевает признание обвиняемым своей вины при смягчении обвинения или сокращении срока наказания. Сделка о признании вины может исказить официальные данные о преступлениях, приговорах, приговорообразовании и рецидивизме, а также существенно повлиять на способность моделей ИИ выдавать значимые, релевантные, ответственные и этичные результаты.

Решение проблемы качества данных

Если качество данных - это криптонит наших устремлений в области ИИ, то есть десять действий, которые организация может предпринять для решения проблем с качеством данных, делающих модели ИИ неточными, ненадежными и бессильными:

Внедрить политику управления данными. Для определения стандартов качества данных, процессов и ролей необходимо разработать надежную систему управления данными. Это поможет создать культуру качества данных и обеспечит соответствие практики управления данными целям организации. Определите ответственность, подотчетность и ответственность за качество данных в организации.

Использование средств анализа данных и качества данных. Существует множество инструментов, позволяющих обнаруживать, измерять и устранять проблемы с качеством данных. Эти инструменты позволяют автоматизировать задачи по очистке, проверке, преобразованию и обогащению данных.

Сформируйте команду специалистов по качеству данных и наделите ее полномочиями. Специальная группа экспертов по качеству данных должна контролировать и реализовывать инициативы в области качества данных. Эта группа должна сотрудничать с другими заинтересованными сторонами, такими как владельцы данных, поставщики, пользователи и аналитики.

Установить и постоянно контролировать показатели качества данных. Необходимо определить и отслеживать показатели качества данных для оценки эффективности и влияния усилий по обеспечению качества данных. Собирать отзывы пользователей, проводить аудиты, применять корректирующие действия и использовать процессы и средства обеспечения качества данных для автоматизации процессов очистки, проверки, обогащения и мониторинга данных.

Обеспечение репрезентативности данных. Под разнообразием и репрезентативностью данных понимается степень отражения в данных реальных явлений и групп населения, на которые нацелены модели ИИ. Они должны обеспечиваться путем сбора и анализа данных из различных источников, областей и перспектив.

Обеспечение безопасности и конфиденциальности данных. Защитить данные от несанкционированного доступа, использования, модификации, фальсификации или раскрытия. Внедрять соответствующие политики и технологии для шифрования, анонимизации или маскировки данных при необходимости. Соблюдать соответствующие законы и нормативные акты, касающиеся защиты данных и согласия.

Обеспечить совместимость данных и аналитики. Обеспечьте обмен и интеграцию данных и аналитики в различных системах. Взаимодействие данных и аналитики может способствовать обмену и сотрудничеству между различными заинтересованными сторонами в выявлении и устранении проблем, связанных с качеством и несоответствием данных.

Создание богатых метаданных. Предоставлять четкую и точную информацию об источниках данных, определениях, форматах, методах, допущениях, ограничениях и показателях качества. Использовать стандартизированную и согласованную терминологию и форматы для документации и метаданных.

Сотрудничать с поставщиками данных. Сотрудничать с поставщиками критически важных данных и приложений для решения проблем качества данных на начальном этапе. Они должны участвовать в обеспечении качества данных путем предоставления четкой документации, метаданных и механизмов обратной связи.

Повышение уровня грамотности в области ИИ и данных. Грамотность в области данных и образование - это навыки и знания, необходимые для эффективного понимания, использования и взаимодействия с данными. Их следует повышать, предоставляя обучение, рекомендации и лучшие практики на всех уровнях организации.

Использование ИИ/МЛ для повышения качества данных

Одной из наиболее значительных возможностей в области качества данных является использование искусственного интеллекта / ML для автоматизации выявления и решения проблем качества данных. К ним относятся:

Обнаружение дубликатов: ML может выявлять и удалять дублирующиеся записи в наборе данных, например в профилях клиентов, списках товаров или счетах-фактурах. Например, модель ML может научиться сравнивать различные записи на основе их атрибутов, таких как имя, адрес, электронная почта, номер телефона и т.д., и присваивать каждой паре записей балл сходства. Если этот показатель превышает определенный порог, записи считаются дубликатами и могут быть объединены или удалены.

Обнаружение выбросов: ML может помочь обнаружить и исправить значения, значительно отличающиеся от остальных данных, например опечатки, ошибки или аномалии. Например, модель ML может научиться определять нормальный диапазон и распределение значений для каждого атрибута в наборе данных, таких как возраст, доход, температура и т.д., и отмечать все значения, которые выходят за пределы ожидаемого диапазона или отклоняются от шаблона. Затем эти значения могут быть проверены или заменены на более приемлемые.

Импутация отсутствующих значений: ОД может помочь заполнить пробелы в наборе данных, где некоторые значения отсутствуют или неизвестны, например, ответы на опросы, показания датчиков или оценки. Например, модель ML может научиться предсказывать недостающие значения на основе имеющихся значений и их взаимосвязей. Это позволяет повысить полноту и точность данных.

Обогащение данных: ML-модель позволяет расширить и дополнить данные дополнительной информацией или характеристиками, отсутствующими в исходном наборе данных, такими как геолокация, настроение, категория или рекомендация. Например, модель ML может добавлять релевантную информацию из внешних источников, таких как веб-страницы, социальные сети или публичные базы данных. Это позволяет повысить насыщенность и полезность данных.

Помните, что качество данных является конечным средством создания ценности, обеспечивающим, чтобы модели ИИ давали значимые, релевантные, ответственные и этичные результаты.

Эту статью для вас подготовили, редакция чата "Чат про внедрение нейросетей ИИ искусственного интеллекта ". Мы надеемся, что вы нашли здесь много полезной информации о внедрении нейросетей и искусственного интеллекта в различные сферы деятельности.

Спасибо за ваш интерес к теме искусственного интеллекта и нейросетей. Мы будем продолжать следить за последними тенденциями в этой области и рады будем поделиться новыми знаниями и идеями с вами.

Будущее принадлежит искусственному интеллекту, и мы приглашаем вас быть частью этого увлекательного путешествия.

Начать дискуссию