Дегенеративный ИИ: чем опасны искусственные данные
Пытаясь предугадать дальнейшее развитие нейросетей, легко представить, что они в конце концов превзойдут человеческий разум по всем показателям. И тогда гениальные машины попросту избавятся от бесполезного для них человечества. Однако сегодняшние тенденции подсказывают другой вероятный сценарий – деградацию ИИ, способную привести к не менее пагубным последствиям.
Контент контенту рознь
Многие сферы деятельности теперь немыслимы без применения генеративного ИИ – технологии, позволяющей создавать новые данные на основе исходных, как это делает человек. Используя для обучения поступившую информацию, нейросеть производит оригинальный контент. Первые системы искусственного интеллекта учились исключительно у людей, предоставлявших им достижения своей творческой мысли. Теперь в этом процессе могут быть использованы так называемые искусственные данные – результаты работы других ИИ. Машина способна обучать машину – не это ли триумф технологий, о котором не первый век мечтают фантасты? Вместе с тем процесс таит в себе угрозу деградации ИИ, именуемой среди специалистов «коллапсом модели».
Рассмотрим простой пример. Если набор данных для обучения включает в себя 90% жёлтых и 10% синих объектов одной категории, система запомнит, что жёлтый цвет преобладает. Новые данные будут содержать изображения зелёного цвета за счёт добавления к синим картинкам желтизны. В следующих моделях синие объекты полностью уступят место зелёным и жёлтым, и в конце концов останутся только жёлтые. Таким образом искажается восприятие искусственным интеллектом объективной реальности, вызывая необратимые дефекты. Даже если обучить модель не генерировать повторяющиеся ответы в большом количестве, это не убережёт её от коллапса, так как она начнёт выдавать ошибки, чтобы избежать частых повторов данных. При решении более сложных задач последствия этого бывают гораздо серьёзнее.
Согласно результатам исследований, опубликованных в Канаде и Великобритании, при генерации данных искусственным интеллектом возникают дефекты контента, на котором обучаются последующие модели. Ошибки неизбежно накапливаются. По мнению исследователя Ильи Шумайлова, поступающая от людей информация намного лучше соответствует реальному миру, поскольку содержит больше непопулярных данных. ИИ не всегда способен правильно интерпретировать их и потому чаще использует для переобучения лишь популярный контент.
Столкнувшиеся с этим пороком генеративного искусственного интеллекта специалисты уже называют его дегенеративным. В шутке есть изрядная доля правды.
Как предотвратить новый Апокалипсис
Казалось бы, технофобы могут торжествовать: при наблюдаемых тенденциях существование ИИ рано или поздно утратит смысл, и человек вернёт себе монополию на принятие решений. Но не всё так просто – слишком глубоко проник в нашу жизнь искусственный интеллект. Всё чаще он управляет различными аспектами человеческой деятельности – от бизнес-процессов до движения транспорта и медицинских операций. Отказаться от ИИ мы уже не можем. При этом накопление ошибок генеративным искусственным интеллектом неизбежно приведёт к росту числа катастроф – финансовых, техногенных, социальных. Вполне возможно, что от целой серии таких ударов цивилизация не сумеет оправиться.
Расхожая тема «восстания машин» теряет свою актуальность, уступая новому варианту грядущего Апокалипсиса, где нам грозит не бунт непобедимого сверхразума, а череда роковых оплошностей глупеющего день ото дня слуги.
Предотвратить коллапс можно двумя путями. Один из них – сохранение и использование наборов созданных человеком данных, не смешанных с информацией от ИИ. Другой – качественное обучение моделей не только на популярных, но и на редких событиях. Первое требует значительных, не приносящих быстрой выгоды для ИИ-бизнеса усилий по маркировке, второе трудно осуществить технически. Так или иначе, проблему в скором времени придётся решать.