{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Искусственный интеллект: достижения за последние 10 лет

Прим.: статья является переводом

От классификации изображений до чат-ботов

Последнее десятилетие было захватывающим и насыщенным для области искусственного интеллекта (ИИ). Скромные исследования потенциала глубокого обучения превратились в повсеместное распространение области, которая теперь включает в себя все, от рекомендательных систем в электронной коммерции до обнаружения объектов для автономных транспортных средств и генеративных моделей, которые могут создавать что угодно: от реалистичных изображений до связного текста.

В этой статье мы вспомним самые значимые достижения, которые привели нас к тому, что мы имеем сегодня. Независимо от того, являетесь ли вы опытным практиком в области ИИ или просто интересуетесь последними разработками в этой области, эта статья предоставит вам исчерпывающий обзор того замечательного прогресса, благодаря которому ИИ стал нарицательным.

2013: AlexNet и вариационные автоэнкодеры

2013 год широко известен как «совершеннолетие» глубокого обучения, инициированное крупными достижениями в области компьютерного зрения. Согласно недавнему интервью Джеффри Хинтона, к 2013 году «практически все исследования компьютерного зрения переключились на нейронные сети». Этот бум был в первую очередь вызван довольно неожиданным прорывом в распознавании изображений годом ранее.

В сентябре 2012 года AlexNet , глубокая сверточная нейронная сеть (CNN), показала рекордные результаты в конкурсе ImageNet Large Scale Visual Recognition Challenge (ILSVRC), продемонстрировав потенциал глубокого обучения для задач распознавания изображений. Топ-5 ошибка составила 15,3%, что на 10,9% ниже, чем у ближайшего конкурента.

Технические улучшения, лежащие в основе этого успеха, стали решающими для будущей траектории искусственного интеллекта и радикально изменили восприятие глубокого обучения.

Авторы применили глубокую сверточную нейронную сеть (CNN), состоящую из пяти сверточных слоев и трех полносвязных линейных слоев - архитектурное решение, которое многие считали непрактичным в то время. Более того, из-за большого количества параметров, создаваемых глубиной сети, обучение проводилось параллельно на двух графических процессорах (GPUs), демонстрируя способность существенно ускорить обучение на больших наборах данных. Время обучения сократилось еще больше за счет замены традиционных функций активации, таких как сигмоида и тангенс, на более эффективную функцию активации под названием "линейный выпрямитель" (ReLU).

Эти достижения, которые в совокупности привели к успеху AlexNet, стали переломным моментом в истории искусственного интеллекта и вызвали всплеск интереса к глубокому обучению как среди академического сообщества, так и среди представителей технологической отрасли. В результате, 2013 год считается многими точкой перелома, после которой глубокое обучение действительно начало развиваться.

Также в 2013 году, хотя и немного утонув в шуме вокруг AlexNet, произошло развитие вариационных автокодировщиков, или VAE - генеративных моделей, которые могут учиться представлять и генерировать данные, такие как изображения и звуки. Они работают путем изучения сжатого представления входных данных в пространстве меньшей размерности, известном как "латентное пространство". Это позволяет им генерировать новые данные на основе обучающих данных. Впоследствии VAE показали свою способность открывать новые возможности для генеративного моделирования и генерации данных, применяемые в таких областях, как искусство, дизайн и игровая индустрия.

2014 год: Генеративно-состязательные сети

На следующий год, в июне 2014 года, область глубокого обучения стала свидетелем еще одного серьезного прорыва с появлением генеративно-состязательных сетей, или GAN, разработанных Иэном Гудфеллоу и его коллегами.

GAN - это тип нейронной сети, способной генерировать новые образцы данных, похожие на данные из обучающего набора. В основе лежит обучение двух сетей одновременно: (1) сеть-генератор создает фальшивые, или синтетические, образцы, а (2) сеть-дискриминатор оценивает их подлинность. Обучение проводится в форме игры, где генератор пытается создать образцы, обманывающие дискриминатор, а дискриминатор старается правильно определить фальшивые образцы.

В то время GAN представляли собой мощный новаторский инструмент для генерации данных, применяемый не только для создания изображений и видео, но также для музыки и искусства. Они также способствовали развитию области обучения без учителя, которая долгое время считалась малоразвитой и сложной, предоставив возможность генерировать высококачественные образцы данных без явных меток.

2015 год: ResNet и прорывы в области обработки естественного языка (NLP)

В 2015 году область искусственного интеллекта сделала значительные прорывы как в компьютерном зрении, так и в обработке естественного языка (NLP).

Кайминг Хе и его коллеги опубликовали статью под названием «Глубокое остаточное обучение для распознавания изображений», в которой они представили концепцию остаточных нейронных сетей, или ResNet - архитектур, которые позволяют информации легче проходить через сеть путем добавления прямых соединений. В отличие от обычной нейронной сети, где каждый слой принимает вывод предыдущего слоя в качестве входа, в ResNet добавляются дополнительные остаточные соединения, которые пропускают один или несколько слоев и напрямую соединяются с более глубокими слоями в сети.

В результате ResNet смогли решить проблему исчезающих градиентов, что позволило обучать намного более глубокие нейронные сети, чем считалось возможным в то время. Это, в свою очередь, привело к значительным улучшениям в задачах классификации изображений и распознавания объектов.

Примерно в то же время исследователи сделали значительный прогресс в разработке рекуррентных нейронных сетей (RNN) и моделей долгой краткосрочной памяти (LSTM). Несмотря на то, что они появились в 1990-х годах, эти модели начали привлекать внимание лишь в 2015 году, в основном благодаря таким факторам, как (1) наличие более крупных и разнообразных наборов данных для обучения, (2) улучшения вычислительной мощности и аппаратного обеспечения, что позволило обучать более глубокие и сложные модели, и (3) модификации, внесенные по ходу исследований, такие как гейты (gates - "ворота").

В результате эти архитектуры позволили языковым моделям лучше понимать контекст и смысл текста, что привело к значительным улучшениям в задачах, таких как перевод языка, генерация текста и анализ тональности. Успех RNN и LSTM в то время проложил путь для разработки больших языковых моделей (LLM), которые мы видим сегодня

2016: AlphaGo

В 2016 году, после поражения Гарри Каспарова от Deep Blue компании IBM в 1997 году, другое противостояние человека и машины вызвало потрясение в мире игр: AlphaGo компании Google одолел мирового чемпиона по Го Ли Седоля.

Поражение Седоля стало еще одним важным событием в развитии искусственного интеллекта: оно продемонстрировало, что машины могут превзойти даже самых опытных игроков в игре, которую ранее считали слишком сложной для компьютеров. С помощью глубокого обучения с подкреплением и поиска по дереву Монте-Карло, AlphaGo анализирует миллионы позиций из предыдущих партий и оценивает лучшие возможные ходы - стратегию, которая значительно превосходит принятие решений человека в этом контексте.

2017 год: Архитектура Transformer и языковые модели

Можно сказать, что 2017 год был самым переломным годом, положившим основу для прорывов в генеративном искусственном интеллекте, которые мы сегодня наблюдаем.

В декабре 2017 года Васвани и его коллеги опубликовали фундаментальную статью "Внимание - все, что вам нужно", в которой была представлена архитектура Transformer, использующая механизм самовнимания для обработки последовательных входных данных. Это позволило более эффективно обрабатывать зависимости на больших расстояниях, что ранее являлось сложной задачей для традиционных архитектур RNN.

Архитектура Transformer состоит из двух основных компонентов: энкодера и декодера. Энкодер отвечает за кодирование входных данных, которые, например, могут быть последовательностью слов. Он берет входную последовательность и применяет механизм самовнимания в совокупности с нейросетями прямого распространения для выявления взаимосвязей и характеристик в предложении и изучения значимых представлений.

Самовнимание позволяет модели понимать отношения между разными словами в предложении. В отличие от традиционных моделей, которые обрабатывают слова в фиксированном порядке, трансформеры фактически рассматривают все слова сразу. Они присваивают каждому слову так называемые оценки на основе его важности относительно других слов в предложении.

Декодер, с другой стороны, берет закодированное представление от энкодера и генерирует выходную последовательность. В задачах, таких как машинный перевод или генерация текста, декодер генерирует переведенную последовательность на основе входных данных, полученных от энкодера. Подобно энкодеру, декодер также состоит из нескольких слоев самовнимания и нейронных сетей прямого распространения. Однако он также включает дополнительный механизм внимания, который позволяет ему фокусироваться на выводе энкодера. Это позволяет декодеру учитывать соответствующую информацию из входной последовательности при генерации выхода.

Архитектура трансформера стала ключевым компонентом развития больших языковых моделей (LLM) и привела к значительным улучшениям в области обработки естественного языка (NLP), таких как машинный перевод, языковое моделирование и онлайн-помощники.

2018 год: GPT-1, BERT и нейронные сети на основе графов

Через несколько месяцев после публикации работы Васвани и его соавторов, в июне 2018 года OpenAI представила Generative Pretrained Transformer, или GPT-1, который эффективно использовал архитектуру трансформера для улавливания длинных зависимостей в тексте. GPT-1 была одной из первых моделей, которая продемонстрировала эффективность предварительного обучения с наблюдателем, за которым следовала настройка модели на конкретные задачи обработки естественного языка.

Также, воспользовавшись все еще новаторской архитектурой трансформера, компания Google в конце 2018 года выпустила и опубликовала метод предварительного обучения под названием Bidirectional Encoder Representations from Transformers, или BERT. В отличие от предыдущих моделей, которые обрабатывали текст однонаправленно (включая GPT-1), BERT одновременно учитывает контекст каждого слова в обоих направлениях. Для иллюстрации этого, авторы приводят очень интуитивный пример:

... в предложении "Я получил доступ к банковскому счету" однонаправленная контекстная модель представила бы "банк" на основе "Я получил доступ к", но не "счету". Однако BERT представляет "банк", используя как его предыдущий, так и следующий контекст — "Я получил доступ к ... счету" — начиная с самого нижнего слоя глубокой нейронной сети, что делает его глубоко двунаправленным.

Концепция двунаправленности была настолько мощной, что BERT превзошел современные системы обработки естественного языка на различных показателях.

Кроме GPT-1 и BERT, в этом году также были заметны графовые нейронные сети, или GNNs. Они относятся к категории нейронных сетей, специально разработанных для работы с графовыми данными. GNN используют алгоритм передачи сообщений для передачи информации по узлам и ребрам графа. Это позволяет сети учить структуру и взаимосвязи данных более интуитивным образом.

Эти достижения позволили извлекать более глубокий смысл из данных и, следовательно, расширили спектр задач, к которым можно применять глубокое обучение. С помощью GNN были сделаны значительные прорывы в таких областях, как анализ социальных сетей, рекомендательные системы и поиск лекарств.

2019: GPT-2 и улучшенные генеративные модели

2019 год ознаменовался несколькими значительными достижениями в области генеративных моделей, особенно в связи с появлением GPT-2. Эта модель действительно оставила своих конкурентов далеко позади, достигнув передовых показателей производительности во многих задачах обработки естественного языка и, кроме того, способна генерировать намного более реалистичный текст, что впоследствии стало намеком на то, что нас ждет в этой области.

Другие достижения в этой области включали BigGAN от DeepMind, который генерировал высококачественные изображения, практически неотличимые от реальных, и StyleGAN от NVIDIA, позволяющий лучше контролировать внешний вид сгенерированных изображений. Все эти прорывы в том, что сейчас известно как генеративное искусственное интеллект, еще дальше расширили границы этой области и...

2020: GPT-3 и самообучение

... вскоре после этого появилась еще одна модель, которая стала широко известной даже за пределами технического сообщества: GPT-3. Эта модель представляла собой значительный скачок в масштабе и возможностях LLM. Просто представьте, у GPT-1 было всего 117 миллионов параметров. Это число выросло до 1,5 миллиарда для GPT-2 и 175 миллиардов для GPT-3.

Это огромное количество параметров позволяет GPT-3 генерировать удивительно связный текст в самом широком диапазоне задач и запросов. Он также продемонстрировал впечатляющую производительность во многих задачах обработки естественного языка, таких как заполнение текста, ответы на вопросы и даже творческое письмо.

Более того, GPT-3 снова подчеркнул потенциал использования самообучения, которое позволяет моделям обучаться на больших объемах немаркированных данных. Это имеет преимущество, поскольку эти модели могут получить общее понимание языка без необходимости в специфичном обучении, что делает его гораздо более экономичным.

2021: AlphaFold 2, DALL·E и GitHub Copilot

От фолдинга белка до генерации изображений и автоматической помощи в написании кода: 2021 год оказался насыщенным благодаря выпускам AlphaFold 2, DALL·E и GitHub Copilot.

AlphaFold 2 стал долгожданным решением проблемы фолдинга белка, существующей на протяжении десятилетий. Исследователи DeepMind расширили архитектуру трансформера, создав эвоформерные блоки — архитектуры, использующие эволюционные стратегии для оптимизации — для создания модели, способной предсказывать трехмерную структуру белка на основе его одномерной последовательности аминокислот. Этот прорыв имеет огромный потенциал для революции в областях, таких как поиск лекарств, биотехнология, а также наше понимание биологических систем.

OpenAI также снова привлекли внимание общественности своим выпуском DALL·E. По сути, эта модель объединяет концепции языковых моделей в стиле GPT и генерации изображений, позволяя создавать высококачественные изображения на основе текстовых описаний.

Чтобы продемонстрировать мощь этой модели, рассмотрим приведенное ниже изображение, сгенерированное с помощью запроса "Картина маслом футуристического мира с летающими автомобилями".

В заключение, GitHub выпустил то, что позже стало лучшим другом каждого разработчика: Copilot. Эта разработка была достигнута в сотрудничестве с OpenAI, которая предоставила основную языковую модель, Codex, обученную на большом корпусе общедоступного кода и научившуюся понимать и генерировать код на разных языках программирования. Разработчики могут использовать Copilot, просто предоставив комментарий к коду, описывающий проблему, которую они пытаются решить, и модель предложит код для реализации решения. Другие возможности включают возможность описывать входной код естественным языком и переводить код между языками программирования.

2022: ChatGPT и Stable Diffusion

Резкий прогресс ИИ за последнее десятилетие вылился в революционное достижение: ChatGPT от OpenAI — чат-бот, который был выпущен в ноябре 2022 года. Этот инструмент является передовым достижением в области обработки естественного языка и способен генерировать последовательные и контекстуально связанные ответы на широкий спектр запросов и подсказок. Более того, он способен вести беседы, предоставлять объяснения, предлагать креативные идеи, помогать в решении проблем, писать и объяснять код, а также имитировать разные личности или стили письма.

Простой и интуитивно понятный интерфейс, через который можно взаимодействовать с ботом, также стимулировал резкий рост его применимости. Раньше преимущественно представители технического сообщества занимались экспериментами с последними изобретениями на базе ИИ. Однако в наши дни инструменты искусственного интеллекта проникли почти в каждую профессиональную область, от разработчиков программного обеспечения до писателей, музыкантов и маркетологов. Многие компании также используют эту модель для автоматизации таких услуг, как поддержка клиентов, машинный перевод или ответы на часто задаваемые вопросы. Фактически, волна автоматизации, которую мы наблюдаем, возродила некоторые опасения и стимулировала обсуждения о том, какие рабочие места могут быть под угрозой автоматизации.

Хотя ChatGPT занимал большую часть внимания в 2022 году, был также сделан значительный прогресс в области генерации изображений. Компания Stability AI представила Stable Diffusion - модель латентной диффузии текста в изображение, способную генерировать фотореалистичные изображения на основе текстовых описаний.

Stable Diffusion является расширением традиционных моделей диффузии, которые работают путем итеративного добавления шума к изображениям и затем обратного процесса для восстановления данных. Она была разработана для ускорения этого процесса, работая не напрямую с входными изображениями, а с их низкоразмерным представлением, или латентным пространством. Кроме того, процесс диффузии модифицируется путем добавления встроенного в трансформер текстового запроса пользователя к сети, что позволяет ему направлять процесс генерации изображения на протяжении каждой итерации.

В целом, выпуск ChatGPT и Stable Diffusion в 2022 году подчеркнул потенциал мультимодального генеративного искусственного интеллекта и спровоцировал массовый рост дальнейшего развития и инвестиций в этой области.

2023 год: LLM и чат-боты

Текущий год, безусловно, стал годом LLM и чат-ботов. Все больше моделей разрабатывается и выпускается с быстро увеличивающейся скоростью.

Например, 24 февраля Meta* AI выпустила LLaMA — LLM, который превосходит GPT-3 по большинству показателей, несмотря на значительно меньшее количество параметров. Меньше чем через месяц, 14 марта, OpenAI выпустила GPT-4 — более крупную, более мощную и мультимодальную версию GPT-3. Точное количество параметров GPT-4 неизвестно, но предполагается, что их число составляет триллионы.

15 марта исследователи из Стэнфордского университета выпустили Alpaca, легковесную языковую модель, которая была дообучена на демонстрациях по следованию инструкциям. Несколько дней спустя, 21 марта, Google запустил своего конкурента ChatGPT: Bard. 10 мая Google выпустила свою последнюю LLM — PaLM-2. С таким беспрестанным темпом развития в этой области, очень вероятно, что к моменту, когда вы это читаете, появилась ещё одна модель.

Мы также видим, что все больше компаний внедряют эти модели в свои продукты. Например, Duolingo объявила о запуске Duolingo Max, нового уровня подписки, основанной на GPT-4, с целью предоставления индивидуальных языковых уроков каждому пользователю. Slack также представил помощника, основанного на искусственном интеллекте, под названием Slack GPT, который может составлять ответы или подводить итоги обсуждений. Кроме того, Shopify представила помощника, работающего на основе ChatGPT, для приложения Shop компании, который помогает клиентам определить желаемые товары с помощью различных подсказок.

Интересно, что современные чат-боты на основе искусственного интеллекта рассматриваются как альтернатива терапевтам. Например, приложение Replika из США предлагает пользователям "интеллектуального компаньона, который заботится о вас, всегда готовый слушать и разговаривать, всегда на вашей стороне". Его основатель, Евгения Куйда, говорит, что приложение имеет широкую аудиторию клиентов, начиная от детей с аутизмом, которые обращаются к нему как к способу "разогреться перед общением с людьми", до одиноких взрослых, которым просто нужен друг.

Прежде чем закончить, хотелось бы подчеркнуть, что это, возможно, является кульминацией последнего десятилетия развития искусственного интеллекта: люди фактически начали использовать Bing! В начале этого года Microsoft представила своего "поисковой помощника", основанного на GPT-4, который был настроен для поиска и впервые за... долгое время (?) стал серьезным конкурентом доминированию Google в поисковом бизнесе.

Оглядываясь назад и забегая вперед

Оглядываясь на последние десять лет развития искусственного интеллекта становится очевидным, что мы стали свидетелями трансформации, которая имела глубокое влияние на нашу работу, бизнес и взаимодействие друг с другом. Большая часть значительного прогресса, достигнутого в последнее время с помощью генеративных моделей, особенно LLM-моделей, кажется придерживается общей идеи, что "больше - лучше", относясь к объему параметров моделей. Это особенно заметно в серии моделей GPT, которая началась с 117 миллионов параметров (GPT-1), а после каждой последующей модели увеличивалась примерно на порядок и достигла своего пика в GPT-4 с потенциально триллионами параметров.

Однако, на основе недавнего интервью, генеральный директор OpenAI Сэм Альтман считает, что мы достигли конца эпохи "больше - лучше". В будущем он все еще считает, что количество параметров будет расти, но основное внимание будет уделяться увеличению возможностей, полезности и безопасности моделей.

Последнее особенно важно. Учитывая, что эти мощные инструменты искусственного интеллекта теперь находятся в руках широкой общественности и уже не ограничены контролируемой средой исследовательских лабораторий, теперь более важно, чем когда-либо, осторожно продвигаться вперед и обеспечить безопасность этих инструментов и их соответствие наилучшим интересам человечества. Надеюсь, мы увидим такое же развитие и инвестиции в области безопасности искусственного интеллекта, какие мы видели в других областях.

* Meta Platfroms Inc. признана экстремистской организацией и запрещена в России

Если вам понравилась данная статья, буду рад видеть вас в своем телеграм-канале Итак, далее!

0
Комментарии
-3 комментариев
Раскрывать всегда