Кто публиковал самые важные научные исследования в AI в 2022?

Все, что мы видим в новостях сегодня про AI, — лишь часть айсберга, в то время как под водой скрывается огромный объем научных исследований с тысячами публикаций в рецензируемых журналах и на конференциях.

Кто публиковал самые важные научные исследования в AI в 2022?

Изучать всю эту академию сложно и могут позволить себе только те, у кого семь пятниц на неделе. Но можно сделать ход конем — посмотреть на топ-100 наиболее резонансных работ, и в целом сделать неплохие выводы, кто и куда нас движет в области AI.

Ниже мой краткий обзор топ-100 наиболее цитируемых научных публикаций за последние годы в AI. Кто их публикует? Кто спонсирует? О чем говорят больше всего? Как выглядит топ-5 и топ-100? Вдохновился я данными с Zeta Alpha, а цитируемость взял с Semantic Scholar, Scopus, WoS.

Для тех, у кого совсем нет времени, TL; DR в конце.

Дисклеймер

Согласен, индекс цитирования, который я беру за основу, не самая верная метрика для оценки влиятельности публикации, особенно, если считать по разным источникам, как Scopus, Semantic Scholar или Google.

Еще важный поинт — сегодня мы видим резонанс вокруг глубокого обучения. В результате там больше всего статей, там работает больше всего людей, больше конференций. Поэтому, там больше всего цитирований. Ну, вы поняли.

Ну и последнее, для людей, не близко знакомых с академией, уточню, важность научных публикаций — это про верификацию результатов исследований и главная мера эффективности научной работы. Это и отличает научную статью от, например, этой красивой статьи на vc. ru.

Так что у нас было интересного за последние 3 года?

Давайте сначала разберемся, кто вообще драйвит всю эту ИИ академию. Если посмотреть на количество самых цитируемых работ в области ИИ за последние 3 года, мы увидим, что США доминирует. Более половины статей из топ-100 вышли из США, по 10% из Китая, Великобритании, Германии. А еще раньше США публиковали вообще две трети всех статей из топ-100 (Exhibit 1).

Доля США, конечно, снижается в последнее время, но хочу обратить внимание на другой факт — данные в графике приводятся только по англоязычным исследованиям, то есть пишутся на английском языке. Несмотря на это, Китай удерживает второе место.

На английском языке. Очень убедительно. А что творится в самой Китайской академии, так это и вовсе космос, там работ сотни тысяч. Но про это я напишу как-нибудь в следующей статье.

Exhibit 1
Exhibit 1

Любопытно также, что Европа представлена лишь несколькими странами. Можно особенно выделить Великобританию, основные работы в области AI в стране публикует DeepMind, на них пришлось почти 70% всех академических статей. Deepmind — это такой исследовательский локомотив в области AI, которую Google приобрела за $500 млн в 2014 году.

Давайте теперь посмотрим на авторов нашего списка топ-100 наиболее цитируемых работ. Исследовательские подразделения Google уже достаточно долго чувствуют себя очень уверенно в лидерах. За ним следуют академические научные подразделения из Meta, Microsoft, университета Цинхуя, UC Berkeley и Стенфорда (Exhibit 2).

Exhibit 2
Exhibit 2

Может показаться очень неочевидным: а зачем корпорациям вообще лезть в академическую область? Даже целый ряд IT-гигантов из Fortune 500 содержат подразделения, занимающиеся чисто фундаментальными исследованиями в разных областях, от экологии до AI, среди которых — IBM, Huawei, Tencent, Amazon, и многие другие.

Обычно компании содержат такие команды в конкурентных гонках за инновациями, талантами, патентами, репутацией.

Короче, это я к чему — академические институции, от которых, кажется, должен быть сильнейший выхлоп исследований по качеству и количеству, часто оказываются не главными движущими силами всей этой истории. Наоборот — оказывается, корпорации мощнее и звонче выкатывают больше самых резонансных работ (Exhibit 3).

Exhibit 3
Exhibit 3

Если посмотреть по общему количеству научных публикаций, то Google также лидирует. При этом второе и третье места в рейтинге (университет Цинхуа и University и «Майкрософт») отстают с незначительной разницей (график ниже). На графике можно заметить, что нет OpenAI и Deepmind — эти организации публикуют меньше работ, но если публикуют — делают это красиво (Exhibit 4).

Много — не значит качественнее. Чтобы было понятно — Google публикует под 9 тыс. статей, из которых только 20 попадают в топ-100 самых цитируемых, а OpenAI и Deepmind публикуют чуть меньше 100 статей, из которых в топ-100 попадают сразу около 10.

Exhibit 4
Exhibit 4

Другим любопытным наблюдением для меня стало появление китайского университета Цинхуа в топ-3 организаций по общему количеству научных публикаций. А также в топе Пекинский университет, Китайский университет Гонконга и университет Наньянг. Еще раз обращу внимание, что это рейтинг англоязычного академического мира (!).

Ну и последний график (Exhibit 5) — о том, какая доля выпущенных работ конвертируется в топ-100 самых резонансных. То есть насколько хорошо организации выкатывают публикации, которые реально стреляют и расходятся как пирожки.

И мы увидим безоговорочное лидерство OpenAI с их блокбастерами. Далее следуют R&D группа EleutherAI, китайский ИИ вендор Megvii, Deepmind и другие. Спасибо маркетингу и, безусловно, качеству работ.

Exhibit 5
Exhibit 5

TL; DR

Ключевые темы последнего года, вокруг которых сосредоточена сотня лучших научных работ в области AI следующие: 1) Разработка алгоритмов обработки естественного языка; 2) Моделей компьютерного зрения; 3) Исследование алгоритмов в робототехнике; 4) Сетки и алгоритмы для работы с визуальным контентом; 5) Инфраструктура для развертывания нейросетей.

Наиболее цитируемые работы сегодня — это чисто биоинжинерные темы про сворачивание и предсказание 3D-структуры белков с AlphaFold и Colabfold, нейросетка DALL-E 2, архитектуры сеток ConvNet и языковая сетка PaLM от Google.

Больше всего статей генерят корпорации, университеты и Китай — Google AI, университет Цинхуа, «Майкрософт», Карнеги — Меллон, MIT. А наиболее влиятельные выкатывают в большинстве корпорации: Google AI, Meta, «Майкрософт» и Беркли.

🔬 Собственно, список с топ-100 статей доступен по ссылке в Notion

А где Россия?

Большая, отдельная тема. Но если кратко — неплохо, за 2020 год в России было около 1120 научных публикаций в области AI в рецензируемых журналах. В 2021 году было уже около 1700 научных публикаций, но это на русском языке. Общее количество публикаций от российских исследователей хоть и стабильно растет, но все еще небольшое — остается на уровне 1% от мировых.

В рейтинге стран, исследователи которых опубликовали наибольшее число статей в рецензируемых журналах по AI, мы находимся на 18-м месте. Это неплохо. В 2021 году мы поднялись на 3 места, с 22-го на 18-е. Нас обгоняют Индонезия, Бразилия, Нидерланды, Иран, Индия, Корея и другие страны.

Самые активные организации по публикациям на конференциях в России стабильно являются Сколтех, НИУ ВШЭ, МФТИ, ИТМО. Можно особенно похвалить три ведущих университета страны — Сколтех, НИУ ВШЭ, МФТИ — они ответственны за 82% всех публикаций на конференциях. Среди коммерческих организаций самые бодрые и активные у нас — «Яндекс», «Сбер», российские подразделения Samsung AI, Huawei.

ТОП-5 cамых цитируемых научных статей за 2022

🔬1/ AlphaFold Protein Structure Database. Нейросеть AlphaFold 2 для предсказания структуры белков.

Саммари: «Гугловое» подразделение DeepMind выкатило работу про вторую версию своей революционной системы предсказания 3D-структуры белков. Фактически им удалось решить задачу фолдинга белка, которая оставалась неразрешенной более 50 лет. Автор: Deepmind. Цитирований: 1520

🔬 2/ Colabfold: making protein folding accessible to all. Эффективная опенсорсная модель фолдинга белков.

Саммари: Новый подход для предсказания 3D-структуры белков инструментом «ColabFold» на платформе Google Colab. Очень важная работа, поскольку задача фолдинга белков требует больших вычислительных мощностей, а с Colabfold становится доступной и демократизированной для всех. Авторы: несколько организаций. Цитирований: 1300

🔬 3/ Hierarchical Text-Conditional Image Generation with CLIP Latents. Универсальный классификатор изображений.

Саммари: Статья о методе генерации изображений, использующем совместное пространство векторных представлений текста и изображений, полученных из модели CLIP. Авторы: OpenAI. Цитирований: 890

🔬 4/ A ConvNet for the 2020s. ConvNet — сверточная нейронная сеть.

Саммари: Статья про подход к созданию сверточных нейронных сетей для анализа и классификации изображений. Авторы предлагают легкую архитектуру для таких сеток. Речь идет про два компонента — блоки построения признаков и адаптивное объединение. Авторы: Meta & UC Berkeley. Цитирований: 740

🔬 5/ PaLM: Scaling Language Modeling with Pathways. Языковая сетка от Google, инфраструктура MLOps и ее производительность.

Саммари: Статья о методе обучения языковых моделей, который позволяет существенно снизить количество параметров и мощности, не уменьшая при этом точности. Речь в статье идет как раз про новую архитектуру языковой модели PAM (Pathaway Aggregated Language Model) . Авторы: Google. Цитирований: 560

🤖 Если вам понравилась эта статья, можете лайкнуть и подписаться на мой тг-канал Full Ratchet, где я пишу про кухню венчурной гастрономии, чем пахнет в AI, больших сделках, и стартапах. Вкусные и полезные материалы и ржомбы.

77
5 комментариев

"Общее количество публикаций от российских исследователей хоть и стабильно растет, но все еще небольшое — остается на уровне 1% от мировых."-хотя странна огромная и умных людей много ,интересно почему такой процент не высокий

1
Ответить

"умных людей много" - Откуда такая информация, можете уточнить?

1
Ответить

Я бы отметил здесь две причины, которые также являются следствием - это объективно небольшое количество научных работ в области ИИ, и от корпораций, и от университетов. Причин этому десятки - финансирование, конкуренция, наука и другие.

А вторая причина, почему на как бы не замечают, заключается в том, что у нас пока нет мега резонансных результатов, которые были бы уникальны в мире, как сворачивание белков или победа в го от DeepMind. Ладно, есть, но они прям зубодробительные.

Ответить

На VC тоже публикуют важные научные исследования в AI, немного с задержкой но все равно

1
Ответить

Скорее на VC появляются сводки о результатах и саммари больших научных публикаций. VC - не имеет ничего общего с академическими журналами, кроме схожего энтузиазма от качественного круга читателей.

Академические статьи целят строго в научное сообщество - исследователей, академиков, имеют методологии и детальные результаты. Жесткий процесс пир2пир рецензирования таких же рисечеров и стандарты форматтинга. Ну про соблюдение правил цитирования я уж вообще не говорю.)

Формат научных публикаций в PubMed, Scopus, Web of Science, Google Scholar, или что лежит на arXiv имеет совсем другие характеристики, по сравнению с VC.)

Ответить