Зачем крупные корпорации искусственно создают лица людей?

На фотографии ниже изображены не модели из метавселенной, не цифровые аватары и не работы дизайнеров. Такие сгенерированные лица использует Майкрософт для обучения нейросетей.

Но неужели в мире не хватает данных для обучения ИИ? И каков конечный результат, не будет ли нейросеть работать хуже при обучении на таких моделях?

Разберемся со всем по порядку. Первый прецедент на нехватку данных возник в конце 1987 года, когда аспирант по имени Дин Померло сконструировал искусственную нейронную сеть и решил обучить ее фотографиями дорог в различных условиях в рамках проекта Navlab - экспериментальной версии автономного транспортного средства, управляемого четырьмя мощными компьютерами (для своего времени) в грузовом отсеке. Но сделать достаточное количество фотографий, чтобы охватить огромный спектр потенциальных дорожных ситуаций, было слишком сложно для небольшой команды, поэтому Померло сгенерировал 1,200 синтетических изображений дорог на компьютере и использовал их для обучения системы. Результаты оказались вполне удовлетворительными - машина ехала ни чуть не хуже, чем другие ее конкуренты.

Проблема нехватки данных для обучения нейронок актуальна и в наши дни. Их трудно получить: данные могут быть дорогими, частными или дефицитными. В результате исследователи все чаще обращаются к синтетическим данным, чтобы дополнить или даже заменить естественные данные для обучения нейронных сетей.

Одной из областей, где синтетические данные оказываются полезными, является решение проблем, связанных с распознаванием лиц. Многие системы распознавания лиц обучены с огромными библиотеками изображений реальных людей, что поднимает вопросы о конфиденциальности на изображениях. Предвзятость также является проблемой, поскольку различные группы населения чрезмерно или недостаточно представлены в этих библиотеках. Исследователи из Microsoft Mixed Reality & AI Lab решили эти проблемы, выпустив коллекцию из 100 000 синтетических лиц для обучения систем искусственного интеллекта. Эти лица генерируются из набора из 500 человек, которые дали разрешение на сканирование своих лиц.

Преимуществом синтетических лиц является то, что компьютер может маркировать каждую часть каждого лица, что помогает нейронной сети быстрее обучаться. Реальные же фотографии должны быть помечены вручную, что занимает гораздо больше времени и не гарантирует высокую точность.

Также этим приемом пользуются и в медицине. Например, для создания нейронной сети, которая могла бы интерпретировать рентгенологические изображения так же, как это могут делать рентгенологи. Но трудно получить данные, необходимые для обучения этих систем, поскольку рентгеновские снимки и компьютерная томография реальных пациентов являются частной медицинской информацией. Получить доступ к тысячам или миллионам изображений, необходимых для обучения действительно точной модели, — проблема.

Ранее в этом году Хазрат Али, ученый-компьютерщик из Катара, описал свои ранние эксперименты с использованием DALL· E2 для создания реалистичных рентгеновских и КТ-изображений легких, включая изображения с конкретными заболеваниями легких. Эти изображения могут быть использованы для обучения нейронной сети для обнаружения опухолей и других аномалий. «Как только мы сможем синтезировать более реалистичные МРТ, КТ и, возможно, ультразвук, это ускорит исследования, не вызывая опасений по поводу конфиденциальности пациентов и обмена данными».

Больше полезной информации вы можете найти в моем Телеграм канале Бизнес, IT и статистика