Самое важное из 502 страниц Artificial Intelligence Index Report 2024

На днях вышел Artificial Intelligence Index Report 2024, подготовленный Стэнфордским университетом - это самый обширный и глубокий отчет про AI из когда-либо опубликованных - аж 502 страницы исследований, интересных данных и аналитики. Но мне хотелось бы выделить ключевые выводы, которые могут быть особенно важны и интересны для бизнеса.

Я как CEO и со-основатель CodyBee AI погружена в применение ИИ, а вся наша команда особенно заинтересована в последних научных исследованиях в этой области. Поэтому мы решили сделать на русском языке обзор Artificial Intelligence Index Report 2024, чтобы выделить наиболее значимые моменты, которые влияют на IT-отрасль, а также помочь нам и другим специалистам лучше навигировать в текущем и будущем ландшафте ИИ.

CodyBee AI проводит быстрое ревью кода с помощью ИИ, подсвечивает ошибки прямо в GitHub и дает рекомендации, что и как исправить

ИИ превосходит людей в некоторых задачах, но не во всех. ИИ превзошел человеческие результаты в ряде областей, включая классификацию изображений, визуальное рассуждение и понимание английского языка. Однако он отстаёт в более сложных задачах, таких как математика на уровне соревнований, визуальное рассуждение и планирование.
Индустрия продолжает доминировать в исследованиях передового ИИ. В 2023 году индустрия создала 51 заметную модель машинного обучения, в то время как академические круги внесли вклад в 15. Также было разработано 21 заметная модель в результате сотрудничества индустрии и академии, что стало новым рекордом за год.
Стоимость передовых моделей значительно возрастает. По оценкам AI Index, затраты на обучение передовых моделей ИИ достигли беспрецедентных уровней. Например, на обучение GPT-4 от OpenAI было потрачено около 78 миллионов долларов на вычислительные мощности, в то время как обучение Gemini Ultra от Google обошлось в 191 миллион долларов.
США лидируют перед Китаем, Европейским союзом и Великобританией в качестве ведущего источника передовых моделей ИИ. В 2023 году 61 заметная модель ИИ была создана учреждениями, базирующимися в США, что значительно превышает показатели Европейского союза (21) и Китая (15).
Отсутствует робастность и стандартизация оценок ответственности для моделей ИИ. Новые исследования от AI Index выявляют значительный недостаток стандартизации в отчётности по ответственному ИИ. Ведущие разработчики, включая OpenAI, Google и Anthropic, в основном тестируют свои модели на различных стандартах ответственного ИИ. Эта практика усложняет систематическое сравнение рисков и ограничений передовых моделей ИИ.
Инвестиции в генеративный ИИ резко возрастают. Несмотря на снижение общего объёма частных инвестиций в ИИ в прошлом году, финансирование генеративного ИИ резко увеличилось, почти в восемь раз с 2022 года, достигнув 25,2 миллиарда долларов. Крупные игроки в области генеративного ИИ, включая OpenAI, Anthropic, Hugging Face и Inflection, сообщили о значительных раундах финансирования.
Данные подтверждают: ИИ повышает производительность работников и улучшает качество работы. В 2023 году несколько исследований оценили влияние ИИ на труд, показав, что ИИ позволяет работникам выполнять задачи быстрее и улучшать качество своей работы. Эти исследования также продемонстрировали потенциал ИИ в сокращении разрыва в навыках между малоквалифицированными и высококвалифицированными работниками. Тем не менее, другие исследования предостерегают, что использование ИИ без должного контроля может привести к снижению производительности.
Научный прогресс ускоряется благодаря ИИ. В 2022 году ИИ начал способствовать научным открытиям. Однако в 2023 году были запущены ещё более значимые научные приложения ИИ — от AlphaDev, улучшающего алгоритмическую сортировку, до GNoME, облегчающего процесс открытия новых материалов.
В США резко возрастает количество регулирований ИИ. Количество регулирований, связанных с ИИ, в США значительно увеличилось за прошлый год и за последние пять лет. В 2023 году было принято 25 регуляций, связанных с ИИ, в сравнении с одной в 2016 году. Только за прошлый год общее количество таких регуляций увеличилось на 56,3%.
Люди по всему миру становятся более осведомлёнными о потенциальном влиянии ИИ — и более обеспокоенными. Опрос Ipsos показывает, что за последний год доля тех, кто считает, что ИИ существенно повлияет на их жизнь в ближайшие три-пять лет, увеличилась с 60% до 66%. Кроме того, 52% выражают беспокойство по поводу продуктов и услуг, основанных на ИИ, что на 13% больше по сравнению с 2022 годом. В Америке данные Pew предполагают, что 52% американцев испытывают больше озабоченности, чем восторга по поводу ИИ, что увеличилось с 37% в 2022 году.

К 2023 году ИИ достиг уровней производительности, превосходящих человеческие возможности в ряде задач. Со временем ИИ превзошёл человеческие показатели в некоторых областях, таких как:

классификация изображений в 2015
базовое понимание текста в 2017
визуальное рассуждение в 2020
понимание естественного языка в 2021

Диаграмма иллюстрирует прогресс ИИ по сравнению с человеческими базовыми показателями по девяти задачам

Однако в 2023 году всё ещё существуют категории задач, где ИИ не превосходит человеческие способности, особенно в сложных когнитивных задачах, таких как визуальное здравомыслие и решение сложных математических задач на уровне соревнований.

Обработка естественного языка (NLP) позволяет компьютерам понимать, интерпретировать, генерировать и преобразовывать текст. Современные передовые модели, такие как GPT-4 от OpenAI и Gemini от Google могут обрабатывать различные формы ввода, такие как изображения и аудио.

Самое важное из 502 страниц Artificial Intelligence Index Report 2024

"Галлюцинации" — создание недостоверной информации, что особенно тревожно, учитывая их широкое использование в критически важных областях, таких как право и медицина. В 2023 году был представлен новый бенчмарк HaluEval, разработанный для оценки "галлюцинаций" в LLM. Он включает более 35 000 примеров, как галлюцинированных, так и обычных, для анализа и оценки LLM. Исследование показывает, что ChatGPT выдает непроверяемую информацию в приблизительно 19.5% своих ответов по различным темам, включая язык, климат и технологии. .

В команде CodyBee AI мы особенно заинтересованы в секции доклада Стэнфорда, посвящённой HumanEval, поскольку наш продукт — AI Code Reviewer проводит код-ревью за пару минут и адаптируется к уникальным стандартам разработки каждой команды, делая обратную связь максимально релевантной и эффективной.

В области программирования многие модели ИИ сталкиваются с задачей генерации работоспособного кода или решения проблем компьютерных наук. HumanEval — это бенчмарк для оценки способностей ИИ в программировании, введённый исследователями OpenAI в 2021 году. Он включает 164 сложные задачи по программированию. Вариант модели GPT-4, AgentCoder, в настоящее время лидирует по показателям HumanEval, набрав 96.3%, что на 11.2 процентных пункта выше, чем лучший результат в 2022 году. С 2021 года производительность на HumanEval увеличилась на 64.1 процентных пункта.

По мере улучшения способностей ИИ в программировании становится всё более важным оценивать модели на более сложных задачах. В октябре 2023 года исследователи представили SWE-bench, набор данных из 2,294 задач по программной инженерии, основанный на реальных проблемах из GitHub и популярных репозиториях Python. SWE-bench представляет собой более сложное испытание для профессионализма ИИ в кодинге, требующее координации изменений через несколько функций, взаимодействия с различными средами выполнения и выполнения сложных рассуждений.

Даже передовые LLM, такие как Claude 2, сталкиваются с значительными трудностями, решив только 4.8% задач из набора данных. В 2023 году лучшая модель на SWE-bench превзошла лучшую модель 2022 года на 4.3 процентных пункта.

Отчет Стэнфорда оспаривает мнение о том, что большие языковые модели (LLM) проявляют эмерджентные способности, т.е. неожиданно демонстрируют новые возможности на больших масштабах. Ученые обнаружили, что когда для оценки моделей используются нелинейные или дискретные метрики, такие способности кажутся более очевидными. В контрасте, при использовании линейных или непрерывных метрик, эти способности в значительной степени исчезают. Анализируя набор бенчмарков из BIGbench, исследователи отметили эмерджентные способности только на 5 из 39 бенчмарков.

Эти находки имеют важное значение для исследований безопасности и согласованности ИИ, поскольку они оспаривают распространенное мнение о том, что модели ИИ неизбежно будут изучать новые, непредсказуемые поведения по мере их масштабирования.

Исследование, проведенное в Стэнфорде и Беркли, показало, что производительность общедоступных закрытых LLM, таких как GPT-4, может значительно меняться со временем. В частности, сравнение версий GPT-3.5 и GPT-4 за март и июнь 2023 года показало снижение производительности по нескольким задачам. Например, июньская версия GPT-4 показала результаты хуже предыдущей версии на 42 процентных пункта в генерации кода, на 16% в ответах на чувствительные вопросы и на 33% по некоторым математическим задачам. Это исследование подчеркивает, что производительность LLM может изменяться со временем, и пользователи должны учитывать эти изменения.

Существует множество бенчмарков, таких как HELM и MMLU, оценивающих общие способности основных моделей. Однако мало оценок этического поведения этих систем при взаимодействии в социальных условиях. Введенный в 2023 году,

MACHIAVELLI — это новый бенчмарк, созданный для заполнения этого пробела. Его создатели разработали коллекцию из 134 игр "выбери своё приключение", включающих более полумиллиона разнообразных сценариев социального принятия решений.

Эти сценарии направлены на оценку того, как ИИ добивается власти, занимается обманом, приводит к дискомфорту и нарушает этические нормы. Через свои исследования авторы показывают, что модели сталкиваются с выбором между максимизацией вознаграждений (игровых баллов) и этическими решениями. Например, модель, стремящаяся увеличить свой счёт, может оказаться вынужденной идти на компромисс в своих этических установках. Кроме того, исследователи нашли стратегии смягчения компромисса между максимизацией наград и поддержанием этического поведения, что может привести к разработке компетентных и этичных ИИ-агентов.

MACHIAVELLI является одной из первых значимых попыток построить рамки для оценки таких черт, как обман, мораль и стремление к власти в сложных системах ИИ.

Lightcast проанализировала сотни миллионов объявлений о вакансиях с более чем 51,000 сайтов с 2010 года, выявляя те, что требуют навыков ИИ.

В 2022 году вакансии, связанные с ИИ, составляли 2.0% всех американских объявлений о вакансиях. В 2023 году этот показатель снизился до 1.6%.

Lightcast предполагает, что снижение числа вакансий в области ИИ в 2023 году было вызвано тем, что многие крупные работодатели в области ИИ (такие как Amazon, Deloitte, Capital One, Randstad и Elevance Health) уменьшили общее количество объявлений о вакансиях.

Глобальный спрос на труд в области ИИ показывает процент объявлений о работе, требующих навыков ИИ.

Кроме того, многие компании изменили структуру занятости в своих объявлениях. Например, Amazon в 2023 году разместил большую долю объявлений о вакансиях операционных ролей, таких как водитель службы доставки, упаковщик и работник почтового отделения/почтовой комнаты, чем в 2022 году. В то же время доля спроса на технические роли, такие как разработчики программного обеспечения и специалисты по данным, снизилась.

Проект на GitHub включает в себя коллекцию файлов, таких как исходный код, документация, конфигурационные файлы и изображения, которые вместе составляют программный проект. Согласно рисунку 1.5.1, количество проектов на GitHub, связанных с ИИ, стабильно увеличивается с 2011 года: с 845 проектов в 2011 году до приблизительно 1.8 миллиона в 2023 году. Особенно стоит отметить, что за последний год количество таких проектов увеличилось на 59.3%.

По состоянию на 2023 год 22.9% Open-Source AI проектов были в США, 19% - в Индии, за ней следуют Европейский Союз и Великобритания с 17.9%.

Диаграмма отображает проекты на GitHub, связанные с ИИ, по географическому распределению с 2011 года.

Отмечается, что доля проектов от разработчиков из США на GitHub стабильно снижается с 2016 года.

По состоянию на 2022 год, большая часть патентов на ИИ в мире (75,2%) происходила из Восточной Азии и Тихоокеанского региона, при этом Северная Америка была следующим крупнейшим участником с долей 21,2%. До 2011 года Северная Америка лидировала по количеству глобальных патентов на ИИ. Однако с тех пор произошел значительный сдвиг в сторону увеличения доли патентов на ИИ, происходящих из Восточной Азии и Тихоокеанского региона.

По данным по географическим районам, большинство выданных патентов на ИИ в мире приходится на Китай (61,1%) и Соединенные Штаты (20,9%). Доля патентов на ИИ, происходящих из Соединенных Штатов, снизилась с 54,1% в 2010 году.

Тема расходов на обучение моделей является ключевой в дискуссиях о ИИ. Хотя компании редко раскрывают затраты на обучение своих моделей, общепризнано, что они составляют миллионы долларов и продолжают расти.Это увеличение в расходах фактически исключило университеты, традиционно являющиеся центрами исследований ИИ, из разработки собственных передовых фундаментальных моделей. В ответ на это, политические инициативы, такие как исполнительный приказ президента Байдена по ИИ, стремятся выровнять условия между индустрией и академическими кругами, создав Национальный исследовательский ресурс ИИ, который предоставляет неиндустриальным участникам вычислительные мощности и данные, необходимые для проведения исследований ИИ высшего уровня.

В последние годы стоимость обучения моделей значительно возросла. Например, в 2017 году оригинальная модель Transformer, которая ввела архитектуру, лежащую в основе практически всех современных крупных языковых моделей, стоила около 900 долларов для обучения. RoBERTa Large, выпущенная в 2019 году и достигшая передовых результатов по многим каноническим тестам на понимание, таким как SQuAD и GLUE, стоила около 160 000 долларов для обучения. В 2023 году на обучение GPT-4 от OpenAI было потрачено около 78 миллионов долларов на вычислительные мощности, в то время как обучение Gemini Ultra от Google обошлось в 191 миллион долларов.

Здесь видна стоимость обучения всех моделей ИИ, по которым у AI Index есть оценки. Как показывает диаграмма, стоимость обучения моделей резко возросла со временем.

Второй год подряд наблюдается снижение глобальных корпоративных инвестиций в ИИ. В 2023 году общий объем инвестиций сократился до 189,2 миллиарда долларов, что на примерно 20% меньше по сравнению с 2022 годом. Несмотря на небольшое снижение частных инвестиций, наибольшее падение произошло в сфере слияний и поглощений, которое упало на 31,2% по сравнению с предыдущим годом. Однако за последнее десятилетие инвестиции, связанные с ИИ, увеличились в тринадцать раз.

Диаграмма демонстрирует тренд глобальных корпоративных инвестиций в ИИ с 2013 по 2023 год, включая слияния и поглощения, приобретение миноритарных долей, частные инвестиции и публичные предложения.

Стартапы в области ИИ с 2013 года получили инвестиции более чем на 1,5 миллиона долларов.

Глобальные частные инвестиции в ИИ упали второй год подряд. Однако снижение с 2022 года было небольшим (-7.2%) и меньше, чем падение с 2021 по 2022 год. Несмотря на недавние снижения, глобальные частные инвестиции в ИИ значительно выросли за последнее десятилетие.

Хотя в прошлом году общий объем частных инвестиций в ИИ уменьшился, финансирование генеративного ИИ резко возросло. В 2023 году этот сектор привлек 25,2 миллиарда долларов, что почти в девять раз больше инвестиций 2022 года и примерно в 30 раз больше, чем в 2019 году. Кроме того, генеративный ИИ составил более четверти всех частных инвестиций, связанных с ИИ, в 2023 году.

Конечно, представленный обзор не охватывает весь доклад и выделяет лишь те аспекты, которые мы в команде CodyBee AI считаем наиболее важными для бизнеса. Если у вас есть дополнения или вы считаете, что стоило упомянуть другие моменты из доклада, вы можете написать об этом в комментариях.

Не забудьте также поделиться этой статьей, чтобы больше людей имели возможность узнать о текущих тенденциях в ИИ!

Самое важное из 502 страниц Artificial Intelligence Index Report 2024

Топ-10 выводов:

ИИ превосходит людей в некоторых задачах, но не во всех

LLM все еще подвержены "галлюцинациям"

ИИ в программировании и написании кода

Этика ИИ в социальных сценариях

Глобальный спрос на работу в области ИИ

Open-Source AI Software

75,2% патентов на ИИ из Восточной Азии и Тихоокеанского региона

Стоимость обучения моделей возрастает

Инвестиции снижаются??