Компании давно знают о проблемах с качеством больших датасетов. К примеру, ImageNet, основной обучающий набор 2009 года, состоящий из 14 миллионов изображений, использовался более десяти лет, прежде чем исследователи обнаружили контент с сексуальными изображениями, на которых можно было легко идентифицировать некоторых женщин. Эти изображения были отсортированы по категориям, помеченным оскорблениями, такими как «королева шкафа», «мулат», «не человек», «извращенец» и «шизофреник». Авторы ImageNet исключили большинство категорий, но многие современные датасеты собраны аналогичным образом, путем использования изображений, полученных без согласия тех, кто на них изображен. И эта проблематика сохраняется до сих пор. Например, модель Stable Diffusion от Stability AI привлекла внимание, когда в ответ на запросы с текстом «Latina» генерировались изображения женщин в вызывающих позах, почти без одежды. Однако более поздняя версия модели генерировала более безобидные изображения. В чем причина? Анализ показал, что обучающие данные для первой версии содержали гораздо больше порнографии.
Да, серьезный вопрос, который хорошо бы держать во внимании профильным НИИ и "Think tanks" у нас. Но с предсказанием рисков у нас проблемы...
Согласен. Мы иногда не успеваем осмысливать технологическое развитие. Собственно для того, чтобы привлечь к этому внимание и был запущен цикл статей про риски ИИ.