Слово экспертам: куда движется индустрия машинного обучения и искусственного интеллекта

Что происходит с индустрией ИИ вне шума и непрофессиональных мнений — отвечают спикеры из NVIDIA, TikTok, IBM Research и Intel.

Материал подготовлен при поддержке организаторов конференции AI Journey 2020.

Герои статьи и ещё около 200 экспертов отрасли выступят на AIJ с докладами с 3 по 5 декабря. Посмотреть онлайн-конференцию можно будет бесплатно, достаточно пройти регистрацию.

Для меня искусственный интеллект в широком смысле слова — это инструмент, который помогает нам выполнять умственную работу. Мы уже используем ИИ в повседневной жизни: например, ищем в интернете или взаимодействуем с виртуальными помощниками.

Возможности ИИ часто намного превосходят человеческие, но они также ограничены: у современного искусственного интеллекта нет сознания и чувств. Поэтому сложно предсказать, когда появится полноценный ИИ.

Нейросети классифицируют изображения лучше людей и готовы посоревноваться с человеком в распознавании и синтезе речи. А из-за недавних успехов в обработке естественного языка появились модели, способные понимать прочитанное не хуже, чем среднестатистический человек.

Но лучший результат, по-моему, выдают рекомендательные системы для поисковиков и социальных сетей — сейчас в них инвестируют больше всего. Такие системы определяют, какой контент показать вам, чтобы опыт взаимодействия с информацией был полезнее.

Все современные проекты основаны на работе, которая была проделана в прошлом. Технологии по своей природе прогрессируют постепенно, хотя иногда мы и замечаем скачки.

Я могу быть предвзят, но должен сказать, что очень горжусь алгоритмом DLSS (Deep Learning Super Sampling), который был изобретён NVIDIA. Он позволяет нам использовать рендеринг в более низком разрешении и требует меньших вычислительных ресурсов, но при этом обеспечивает более высокое качество картинки по сравнению с рендерингом в высоком разрешении.

Обычно приходится выбирать: либо высокое качество картинки, либо высокая скорость отрисовки графики. Теперь, благодаря интеллектуальным алгоритмам реконструкции видео на базе Deep Learning, можно получить и то и другое одновременно. Подобные технологии позволяют добавить вычислительной мощи нашим GPU и обеспечить пользователям более высокую производительность и качественную картинку в играх.

Сейчас мой любимый тип нейронной сети — Transformer. Его умный алгоритм способен эффективно учиться на больших наборах данных и обучаться сложным проблемам во множестве областей, включая обработку естественной речи. Вычислительная структура этого типа сети отлично сочетается с возможностями большинства параллельных процессоров — это делает её хорошо масштабируемой. Идеальная совместимость алгоритма и аппаратных технологий.

Ещё несколько лет назад я бы ни за что не поверил, что к 2020 году может существовать что-то столь же мощное, как алгоритм GPT-3 — он как раз основан на архитектуре Transformer.

Я думаю, что нейронные сети имеют огромные перспективы для всех областей и отраслей. Да, некоторые из них менее развиты, чем другие, но это, вероятнее всего, вопрос времени. Совсем скоро мир поймёт, насколько эффективно использовать нейронные сети для решения практически любых задач.

Одно из самых больших заблуждений заключается в том, что главная задача разработчика нейронных сетей — изобрести качественно новый алгоритм машинного обучения для решения какой-то задачи. Структура нейронной сети, несомненно, важна, но, на самом деле, гораздо важнее другое:

Системные вопросы — основополагающий элемент сферы ML. Чем крупнее нейронная сеть, тем более продуманная системная инженерия необходима.
Разработка корректных наборов данных для обучения — их постоянное совершенствование, уточнение, дополнение новыми данными, устранение ранних ошибок.
Правильная структура приложения — важно определить, как модель ML будет использоваться в архитектуре всего приложения, каковы входные и выходные данные, как избежать сбоя.

Успех приложения для машинного обучения намного больше зависит от этих трёх аспектов, чем от выбора архитектуры нейронной сети.

Я бы не сказал, что рекомендательные системы настолько хороши, что знают всё, что мы хотим увидеть. Однако они очень быстро разбираются в наших предпочтениях, а затем начинают атаковать нас своими рекомендациями.

Помню, как однажды посмотрел на YouTube несколько роликов о том, как ухаживать за попугаями в домашних условиях. В течение следующих месяцев YouTube постоянно предлагал мне видео с домашними попугаями. На какое-то время мне пришлось с этим просто смириться, потому что простого способа сообщить алгоритму о том, что мне наплевать на попугаев, не существует.

Шутки шутками, но последствия действия алгоритмов могут быть очень серьёзными. То, что нейросеть показывает только те новости, которые нам нравятся, сужает кругозор. Нам всем предстоит учиться тому, как избегать таких «информационных пузырей», а разработчикам систем — как модернизировать бесконечную персонализацию контента под наши предпочтения.

Мне кажется, голосовые помощники удивительно полезны уже сейчас. Они хороши в транзакционном взаимодействии, вроде установки будильника или ответов на фактические вопросы. Думаю, что недавние прорывы в области NLP приведут к появлению значительно более сложных нейросетей для передачи голосовой информации уже в ближайшие пару лет. Общение с такими сетями станет полезнее, интереснее и, вероятно, гораздо забавнее.

Мне нравятся программы, которые автоматически раскрашивают и улучшают старые фотографии. Приятно видеть, как AI оживляет прошлое.

Для меня «искусственный интеллект» означает имитацию человеческого интеллекта в машине. Если коротко, ИИ — это механизм, который делает всё, что мы традиционно относим к области человеческого интеллекта.

Я думаю, что эффективность решения задачи линейно зависит от количества данных для обучения. Яркий пример — распознавание объектов на фотографиях. ИИ может отточить этот навык до совершенства, тренируясь на сотнях тысяч изображений. Кроме того, он хорошо справляется с заданиями, в которых нужно экспериментировать и развиваться методом проб и ошибок, таких как игра в шахматы.

По-моему, Jukebox от OpenAI, для создания которого нейронную сеть обучили генерировать полноценные песни с музыкой, осмысленными текстами и вокалом — это прорыв. С другой стороны, нет ничего плохого в повторном использовании уже созданных технологий или исследований.

Опыт предыдущих разработок — основа лучших продуктов — представителей мира ИИ.

Я люблю GAN как минимум за гениальность концепции. Научить одну нейросеть генерировать, а другую — отличать настоящее от сгенерированного, по-моему, фантастическая идея.

Для меня есть одна такая сфера — это музыка. Нейронные сети действительно способны создавать впечатляющую музыку, которая с первого взгляда сравнима с истинно человеческим творчеством. На самом же деле это огромное заблуждение: если сравнить композиции не так поверхностно, легко заметить гигантскую пропасть между способностями искусственного интеллекта и настоящих музыкантов.

Я думаю, люди переоценивают умственные способности современных нейросетей, сравнивая искусственный интеллект с неким псевдочеловеческим сознанием. На самом же деле его фундаментальная проблема — нехватка самосознания.

В действительности машинное обучение не похоже на человеческий интеллект: оно может выполнять часть тех же задач, что и человек, но кардинально другим способом.

Нейросети своими рекомендациями могут навязывать нам определённое поведение — это опасность, о которой нельзя забывать. ИТ-компании должны нести ответственность не только за то, чтобы максимизировать наше потребление, но и за то, чтобы показывать нам контент, выходящий за пределы нашей «зоны комфорта». Это поможет избежать фильтров-пузырей и группового мышления.

Все «глупые» элементы возникают из-за того, что понимание языка — это невероятно сложно. Существует серьёзная проблема issue of walled gardens: разные технические платформы не делятся друг с другом персональной информацией о пользователях, которую они собирают и хранят. Бытовой пример: ваш голосовой помощник от одной компании откажется взаимодействовать с виртуальным календарём от другой фирмы.

Голосовые помощники не будут по-настоящему полезны, пока эти изолированные хранилища данных не станут синхронизированными.

Сортировка огурцов!

Искусственный интеллект — это способность вычислительной машины справляться с задачами, которые обычно выполняются разумными существами.

ИИ можно создать, например, с помощью машинного обучения (ML), когда алгоритм ищет закономерности в тренировочных данных и производит модели для последующего прогнозирования на новых данных. Одна из категорий машинного обучения, которая за последнее десятилетие продемонстрировала впечатляющие результаты в некоторых областях, — нейронные сети.

Автозаполнение в поисковых системах, быстрый перевод с иностранных языков, рекомендации покупок от интернет-магазинов и песен от музыкальных стриминговых сервисов — все эти функции, встречающиеся нам в повседневной жизни, выполняет ИИ.

Машинное обучение лучше всего работает с задачами, имеющими предсказуемые закономерности. И чем более они предсказуемы — тем легче выучить шаблон.

Также ML легко работает со структурированными данными, но может воспринимать и неструктурированные — текст, аудио и изображения. Конечно, обрабатывать простые однословные команды куда проще, чем быть многофункциональным виртуальным помощником.

Все большее внимание уделяется задаче повышения доверия к искусственному интеллекту — надо убедиться, что технология ИИ надёжна, прозрачна, справедлива и объяснима. Над этими вопросами мы работаем в IBM Research.

Мне не важно, каким будет метод, если он решит общественно важную задачу.

ML находит математические закономерности и принимает решения на их основе — такой метод далеко не всегда совпадает с человеческим. Именно поэтому людей часто удивляют способности и недоработки технологий машинного обучения.

Существует много вариантов определения искусственного интеллекта — в первую очередь из-за того, что понятие интеллекта само по себе сформулировать трудно. А искусственному интеллекту к тому же ещё и приписывают всё подряд — от простых бытовых функций до грандиозных операций.

Мне нравится определение «Википедии»: «Искусственный интеллект — это интеллект машин, отличающийся от естественного интеллекта людей и животных».

Есть области, в которые ИИ уже проник, с ними мы встречаемся ежедневно, — это таргетированная реклама, механизмы рекомендаций, перевод текста, видеоаналитика. Но есть и те, где его потенциал ещё не реализовался в полной мере, — например, робототехника и виртуальные ассистенты.

Я могу выделить несколько таких задач:

Распознавание и обнаружение объектов, семантическая сегментация — более или менее решённые проблемы в области компьютерного зрения.
Перевод текста с одного языка на другой.
Генерация текста. Особенно хочется выделить последние достижения в данной области (алгоритм GPT-3), сделавшие машинный текст очень похожим на человеческий.
Рекомендации в поисковых системах, которые способны грамотно предложить пользователю всё — от товара до фильма.

Но далеко не всегда даже стабильная работа ИИ — залог успеха. Несколько лет назад производителям телевизоров пришлось убрать отлично работающие камеры распознавания жестов со своих устройств. Пользователи просто не хотели, чтобы за ними наблюдали.

На мой взгляд, сейчас мы также должны уделять внимание приложениям ИИ, помогающим решать социальные или гуманитарные проблемы. GAN, который используется для обучения более надёжного детектора опухолей, — отличный пример. И наоборот, аналогичный GAN, применяемый для создания дипфейков (поддельных видео знаменитостей) и заработка на сомнительном контенте, — пример, безусловно, неправильный.

Обучение с подкреплением — это область, которая ещё только зарождается. Создание условий для самостоятельного обучения машины будет прорывом для многих приложений. А сейчас его развитие можно наблюдать в сфере робототехники и игровой индустрии (MiniGO).

Графовые нейронные сети — ещё одна зарождающаяся область ИИ, которая выводит рекомендации по контенту на новый уровень.

У каждого типа нейронной сети есть спектр задач, которые она может решить. Это всё равно что спрашивать плотника, какой его любимый инструмент: сверло или стамеска? Плотник использует и то, и другое и не может изготовить стол или стул только одним инструментом.

Например, GAN можно использовать для создания новых наборов данных, конвертации текста в изображение, уменьшения шума изображений и видео.

SVM — это стандартный классификатор машинного обучения, который идеально подходит для сортировки небольших наборов данных с незначительными выбросами (отклоняющимися данными).

CNN применяют для распознавания изображений, видеоанализа, NLP, разработки игр.

С помощью вариационных автоэнкодеров (VAE) создаются поддельные видео (deepfakes) или полностью искусственная музыка.

Рекуррентные нейронные сети (RNN) применяют для последовательного анализа данных и, например, решения задач на перевод, распознавание речи и действий человека.

Я думаю, что ИИ сейчас переоценён в чат-ботах и call-центрах — здесь ещё стоит поработать над уровнем надёжности.

Многие при упоминании термина «искусственный интеллект» всё ещё представляют сцены из научно-фантастических фильмов и беспилотные автомобили. На самом деле ИИ решает обширный спектр задач — промышленных (например, автоматизация производства) и социальных (автономные больничные роботы, расширенная диагностика).

Я постоянно натыкаюсь на индивидуальные рекомендации от поисковых систем, интернет-магазинов и мобильных приложений — это, на мой взгляд, может привести к чрезмерно персонализированному контенту. Информационные пузыри, которые формируются рекомендательными системами, могут приводить к изоляции и недостаточному развитию, а в результате — к деградации.

Но и человек — не статичный портрет целевой аудитории. Ему свойственно менять предпочтения и интересы, поэтому устаревшая система рекомендаций рискует стать скучной или даже раздражающей.

В человеческом общении есть едва уловимые нюансы. Иногда мы передаём информацию скорее тоном голоса, а не вербальным содержанием — научить этому голосового помощника не просто.

Со временем появляются алгоритмы вроде GPT-3, которые всё больше походят на людей. Сейчас они помогают сэкономить время на подготовку текстов по заданной теме, а в будущем станут выполнять более сложные задачи вроде объяснения читателям сложных юридических документов.

Международная конференция по искусственному интеллекту и анализу данных AI Journey 2020 пройдёт с 3 по 5 декабря в онлайн-формате. Посмотреть её можно будет бесплатно, достаточно пройти регистрацию на сайте.

AI Journey проводится ПАО «Сбербанк» совместно с ведущими российскими и зарубежными компаниями, лидерами по разработке и применению технологий искусственного интеллекта. На конференции выступят около 200 экспертов отрасли. Помимо участников нашего блиц-опроса, свои доклады представят Майк Девис (Intel), Лоренс ван дер Маатен (Facebook AI Research) и Юрген Шмидхубер (IDSIA). Среди ключевых тем — последние разработки в области машинного обучения, обработки естественного языка, нейроморфных и гетерогенных вычислений.

Узнать больше

Слово экспертам: куда движется индустрия машинного обучения и искусственного интеллекта

О понимании термина «искусственный интеллект»

О задачах, с которыми машинное обучение справляется лучше всего

Об использовании чужого опыта и проектах, двигающих индустрию

О любимой разновидности нейросетей

Об отрасли, где значение нейросетей переоценено больше всего

О стереотипах в общественном сознании

О манипуляциях человеческим поведением и информационных пузырях

Об ограниченности голосовых помощников

О любимой поделке энтузиастов

О понимании термина «искусственный интеллект»

О задачах, с которыми машинное обучение справляется лучше всего

Об использовании чужого опыта и проектах, двигающих индустрию

О любимой разновидности нейросетей

Об отрасли, где значение нейросетей переоценено больше всего

О стереотипах в общественном сознании

О манипуляциях человеческим поведением и информационных пузырях

Об ограниченности голосовых помощников

О любимой поделке энтузиастов

О понимании термина «искусственный интеллект»

О задачах, с которыми машинное обучение справляется лучше всего

О проектах, двигающих индустрию

О любимой разновидности нейросетей

О стереотипах в общественном сознании

О понимании термина «искусственный интеллект»

О задачах, с которыми машинное обучение справляется лучше всего

О проектах, двигающих индустрию

О любимой разновидности нейросетей

Об отрасли, где значение нейросетей переоценено больше всего

О стереотипах в общественном сознании

О манипуляциях человеческим поведением и информационных пузырях

Об ограниченности голосовых помощников