Как некорректные данные «портят» работу ИИ

Сегодня трудно найти хотя бы одну отрасль, в которой бы не использовали ИИ. Однако, согласно исследованиям, 80% проектов на базе AI-технологии заканчиваются неудачей. Одна из главных причин – некачественные данные, которые используются для обучения и работы ИИ-инструментов.

Почему же корректные данные играют такую важную роль в работе с искусственным интеллектом и что бывает, если не удается использовать качественные данные? Рассмотрим, в каких областях некорректные данные могут нивелировать работу даже самых передовых ИИ-решений.

Если данные, которые используются для обучения ИИ-моделей некорректны или неполны, то модель не сможет точно определять закономерности и делать правильные выводы. Например, ИИ-инструмент для диагностики заболеваний, обученный на неточных медицинских записях, будет выдавать неверные диагнозы, что, понятно, может привести к серьёзным последствиям для здоровья пациентов.

Данные, содержащие предвзятые или дискриминационные элементы, приводят к тому, что ИИ «наследует» предвзятое отношение. Например, если алгоритм набора персонала обучен на основе данных, исходя из которых предпочтение отдается кандидатам определённого пола или национальности, то ИИ будет продолжать эту практику.

Например, американская информационная система COMPAS, созданная для прогнозирования рецидива преступников, недавно подверглась обширной критике за дискриминацию на расовой основе. Это произошло из-за того, что исторические данные, использованные для её обучения, содержали заведомо предвзятую информацию, и в итоге система говорила, что скорее всего преступления совершит человек с конкретной расы и национальности.

Еще одна громкая история связана с технологией распознавания лиц от Amazon. Инструмент Face recognition постоянно ошибался при распознавании лиц чернокожих и других этнических меньшинств. Выяснилось, что модель была обучена на недостаточно репрезентативных данных.

И даже Apple столкнулась с обвинениями в дискриминации после запуска Apple Card. Пользователи заметили, что алгоритм, использовавшийся для определения кредитного лимита, выдавал женщинам значительно меньший кредиты, даже если у них был одинаковый финансовый статус с мужчинами.

Данные должны быть точными и надежными, чтобы ИИ-решения работали корректно. В беспилотных автомобилях, например, ошибки в данных могут привести к авариям и к жертвам. Например, в некоторых случаях автопилот Tesla неправильно интерпретировал дорожные знаки и разметку, что приводило к аварийным ситуациям. В одном из инцидентов автопилот принял белую боковую полосу на дороге за продолжение пути, что привело к столкновению.

Проект Google Flu Trends, запущенный для прогнозирования распространения гриппа на основе поисковых запросов, потерпел неудачу, потому что использовал некорректные данные. Из-за неправильной интерпретации запросов и избыточного «шума» в данных, система часто давала неточные прогнозы. В итоге на нее просто перестали полагаться.

Алгоритм ценообразования в Uber неправильно интерпретировал данные о спросе и предложении, что приводило к завышенным или заниженным ценам на поездки. Особенно это было заметно во время плохой погоды или проведения массовых мероприятий.

А Microsoft полностью провалил запуск чат-бота Tay, который должен был учиться и общаться с пользователями Twitter. Из-за некорректных данных и отсутствия фильтров для обработки вредоносного контента, Tay быстро начал генерировать оскорбительные и неприемлемые сообщения. «Добрые» пользователи быстро обучили бота расистским и сексистским высказываниям, что вынудило компанию отключить его всего через 16 часов после запуска.

Возможно, что использование неточных данные не так драматично скажутся на репутации вашей компании или нанесут ущерб здоровью людей. Однако в любом случае использование некорректных данных в решениях на базе искусственного интеллекта, не позволит вам эффективно решать производственные или бизнес-задачи организации, а также могут отрицательно сказаться на взаимодействии с вашими клиентами.

Данные формируют основу для обучения и работы алгоритмов. Поэтому первый шаг на пути к корректной работе ИИ-инструментов – сбор, обработка и проверка данных. Все это вполне понятные и реализуемые задачи, которые регулярно решаются в рамках проектов Data Governance. Начните с данных и тогда вы сможете эффективно и этично использовать ИИ-инструменты.

Наш канал об ИТ-рынке

Как некорректные данные «портят» работу ИИ

Качество обучения

Нейтральное отношение

Точность и надежность