Исследование: человечество неправильно обучает ИИ — большинство моделей не работают в реальном мире Статьи редакции

К такому выводу пришли 40 исследователей из Google. Почему за границами лабораторий модели машинного обучения не оправдывают себя — в конспекте материала MIT Technology Review.

Результаты стресс-теста 50 различных моделей машинного обучения при одинаковых условиях

Часто модели машинного обучения нежизнеспособны из-за того, что данные, на которых их обучали, не соответствуют с данными в реальности. К примеру, исследователи обучают ИИ распознавать признаки болезни по качественным медицинским снимкам, но в реальных клинических условиях они сделаны наскоро и дешёвой камерой.

Но это не единственная проблема. Группа из 40 исследователей из семи различных команд Google выявила ещё одну — недоспецификацию.

Представим типичный сценарий: сначала модель обучают на множестве примеров, после тестируют на новых данных — и спустя несколько этапов её можно применять на практике.

Однако исследователи считают, что способ слишком грубый. В таком обучении не учитываются:

  • Случайные значения, которые могла задать нейросеть ещё до начала обучения.
  • Способ выбора и демонстрации данных.
  • Количество тестов.

При одинаковых условиях можно создать разные модели — и все они будут немного отличаться, если не учесть детали. Эти незначительные, часто случайные различия игнорируются, но в реальности могут сильно влиять на итоговый результат. Поэтому невозможно предсказать, будет ли тестируемая модель жизнеспособна, думают исследователи Google.

И проблема не похожа на несоответствие обучающих данных с реальными. Недоспецификация — это когда даже при удачном тестировании модели в реальности ИИ может оказаться нерабочим.

Исследователи проверили гипотезу: они взяли несколько моделей и провели их через одинаковые процессы машинного обучения. После запустили несколько стресс-тестов, чтобы быстро проверить различия в производительности.

К примеру, они взяли 50 моделей и обучили их распознавать изображения. Для этого исследователи использовали базу данных ImageNet. Единственным отличием в моделях были случайные значения, присвоенные нейросети на старте.

В тестировании использовали ImageNet-C — набор картинок из ImageNet, но сжатых до нескольких пикселей и с изменёнными яркостью и контрастностью. Также взяли изображения ObjectNet — повседневные объекты под непривычными углами и со сложным фоном: перевёрнутые чайники и стулья, висящие на крючках футболки.

Часть моделей лучше распознавала пиксельные картинки, часть — предметы. В итоге они показали похожий результат, но с разной производительностью.

После сделали тесты по тому же принципу, но уже с медицинскими данными, результат тот же — модели, которые должны были быть одинаково точными, работали по-разному при тестировании с реальными данными.

Возможно, нам придётся пересмотреть то, как мы оцениваем нейронные сети.

Брэндон Рорер,

инженер по машинному обучению в iRobot

Исследователи указывают, что нужно делать гораздо больше тестов, чтобы ИИ был жизнеспособнее в реальных условиях. Но это непросто: для текущего эксперимента в стресс-тестах использовали данные из реального мира или данные, имитирующие его. Это не всегда доступно.

Порой результаты противоречат друг другу: некоторые модели, которые хорошо распознавали пиксельные изображения, плохо распознавали контрастные изображения. Это показывает, что сложно обучить нейросеть, которая успешно пройдёт сразу несколько подобных тестов.

Что с этим делать

Одно из решений — разработать дополнительный этап обучения и тестирования, в котором параллельно выпускают сразу несколько моделей. Эти модели снова тестируют на реальных примерах, а после выбирают лучшую для конкретной задачи.

Но исследователь машинного обучения в ETH Zurich Янник Килчер говорит, что это слишком сложно для обычных исследователей и бизнеса — подобные разработки могут позволить себе корпорации вроде Google.

Автор исследования Алекс Д'Амур пока не понимает, как решить эту проблему, нужно изучить всё детальнее: «Часто мы только в самом конце узнаём, что требуется от модели обучения, когда она оказалась неудачной в реальном мире».

Сейчас мы слабо доверяем «убийственным приложениям». И мы хотим восстановить доверие.

Кэтрин Хеллер, соавтор исследования, работает в Google над ИИ для здравоохранения
0
18 комментариев
Написать комментарий...
Ol Ka

Искусственный интеллект оценивается человеческим. Критерии оценки, надо полагать, тоже человеческие.

Но разве такой способ оценки в принципе может показать объективность? 😶

Ответить
Развернуть ветку
stivstivsti

Да, конечно.

Ответить
Развернуть ветку
Михаил Топоров

Ну да, пока ИИ не научился свои критерии формировать. 

Ответить
Развернуть ветку
Марк Егоров

Научный подход как раз об этом, разве нет?

Ответить
Развернуть ветку
Ol Ka

Если бы я знал ответ, то и не задавал бы вопрос, разве нет?

Ответить
Развернуть ветку
Vlad Kulikov

Да, конечно. 

Ответить
Развернуть ветку
ei-grad

Обычно лучшей моделью (в том числе на практике) является композиция всех этих тестируемых моделей. То есть мотивация "чтобы выбрать лучшую" - весьма спорна.

Описываемая "проблема" и предлагаемое решение с обучением нескольких моделей, это скорее ньюанс/трюк, про который знают и используют не только в гугле. Просто сравните с той же проблемой "недоспецификации" - ImageNet например, внезапно, это хороший датасет по классификации пород собак, и не очень хороший если вам нужна CV модель общего назначения. И тут уже действительно стоит упомянуть что только компании уровня фейсбука могут себе позволить предобучить резнет на миллиардах фото. А тестировать несколько моделей - норма жизни для любого адекватного data scientist.

Ответить
Развернуть ветку
Art.Spark

как поможет ИИ , если большинство проблем медицины - это негативный государственный менеджмент ?

- быстрая массовая регулярная диагностика по крови отсутствует
- любой массовый скрининг населения на уровне Зимбабве или только для обеспеченных
- например если Клава в ресепшене тебя не пускает
- фарм индустрия понемногу травит народ чтоб было кого лечить

Ответить
Развернуть ветку
Александр Бурахин

Название ИИ вводит людей в заблуждение. Многие думают, что компьютер что-то там придумывает. На самом деле ничего не придумывается, компьютер работает по созданному человеком алгоритму и не может его менять. Так, что к интеллекту это не имеет отношение. Обработать данные по заданному алгоритму, где здесь интеллект? Искусственного интеллекта не существует.

Ответить
Развернуть ветку
Антон Балакирев

А в чём проблема? Люди, когда в институте учатся, во-первых, тоже по-разному усваивают материал (по сути разные начальные значения). Во-вторых, когда студенты вышли из универа, то в реальном бизнесе и производстве тоже всё иначе происходит, чем на лабораторных или в учебниках.

Такая же история с ИИ моделями. Только у человека на обучение годы уходят, для моделей ИИ - дни и недели.

Ответить
Развернуть ветку
Вадим Клюев

с теми же болезнями: даже если снимки едлают хорошей камерой - лучше, чтобы это было видео с возможностью пересмотра, даже человеку нужен не один кадр,а  их последовательность, и машине надо бы так же инфу предлагать 

Ответить
Развернуть ветку
Юрий

Поменяются алгоритмы, будут новые методы и всё!

Ответить
Развернуть ветку
Сергей Т

Скорее всего, уже есть. Готовится почва для их продажи)

Ответить
Развернуть ветку
Di Smitt

В чем проблема объединить все "обученные" модели в одном "коллективом ИИ", либо перенаправить их персональные выводы на анализ "головному ИИ" задача которого собирать, анализировать и выдавать требуемые результаты? 

Ответить
Развернуть ветку
Art.Spark

дело не во внутренних моделях, а во соответствии с проверкой к внешнему реальному условию.
Ты думаешь что надо лишь больше данных напихать - а это принципиально не так.

Тут смысл в самом принципе и методе оцифровки информации, и желательно применение векторной логики.
Новая плоскость анализа... а не впихивание в текущую плоскость чего-то дополнительного.

Ответить
Развернуть ветку
Антон Балакирев

Так часто делается.

Ответить
Развернуть ветку
Павел Караганов

http://www.image-net.org
AI: NEW SUPPORT #SMM
Theame: Artifical Intilegence Space Logic's She Agency a Not's Music Help Gallery Saturn Appendix My Job. Not I Problem'm Irina Microsoft Voice-Sound AI & I Pavel Microsoft ИИ
" Google Art & Culture " Gallery Art AI Appendix Space Soviet Union " http://www.image-net.org "

Ответить
Развернуть ветку
Art.Spark

дело в "Условии" проверки нормальности,
которое не входило в изначальную модель обучения, и находиться в реальности.
ИИ специалисты напоминают типичных супер-задротов-ученых, смотрящих себе под ноги, не видящих главного слона - они хотят все запихнуть в таблицу,
а потом на Реальности настойчиво внушать, доказывать и натягивать то что в таблице вышло.

Саму же информационную деструкцию (копия-копии-копии) они не учитывают - постепенно преобразовующиеся данные, искажаются на каждом этапе,
(в том числе из-за того что язык и объекты программирования - вещи упрощенно-абстрактные, и самой реальностью не являются)

Ответить
Развернуть ветку
15 комментариев
Раскрывать всегда