«Yandex Research — мостик между мировой наукой и нашим бизнесом»: чем занимается научный отдел Яндекса

Рассказывает его глава — Артём Бабенко.

Яндекс стал единственной компанией из России, которая вошла в рейтинг мировых лидеров в области ИИ по версии учёных Массачусетского технологического института и центра Epoch AI. При этом по некоторым критериям мы оказались выше многих международных техногигантов.

Кроме того, с 12 по 16 декабря Яндекс принимал участие в одной из самых авторитетных и крупных международных конференций по машинному обучению и нейровычислениям NeurIPS 2023. На ней компания представила восемь своих исследований.

За научные исследования в области машинного обучения в компании уже больше 10 лет отвечает команда Yandex Research. Артём Бабенко, руководитель команды наших учёных, рассказал про миссию проекта, актуальные и значимые научные работы, участие в конференциях и международные партнёрства.

Какова миссия проекта? Изменилась ли она с годами?

Yandex Research — научный отдел Яндекса. Он — мостик между мировой наукой и нашим бизнесом. У нашего отдела несколько направлений деятельности. Во-первых, это, конечно, научные статьи, с которыми мы выступаем на конференциях и делимся таким образом знаниями с мировым сообществом.

Во-вторых, это наукоёмкие внедрения в наши сервисы. Мы используем не только свою экспертизу, но и знания всего научного сообщества, поэтому наше видение картины наиболее полное и глубокое.

Мы когда-то сформулировали ёмкий девиз, который актуален до сих пор: «От науки — Яндексу, от Яндекса — науке».

Сколько в команде Yandex Research сейчас человек?

Нас около тридцати человек. При этом у нас есть как штатные сотрудники, так и резиденты. Резиденты, чаще всего, — это студенты-аспиранты без опыта.

Мы буквально выращиваем новые научные кадры.

У нас работают исследователи из ведущих университетов страны — ВШЭ, МФТИ, МГУ и других.

В каких сервисах Яндекса используются ваши наработки?

Ещё на заре моей аспирантуры я сам написал статью о поиске по картинкам и рассказал о ней в Яндексе. У меня забрали python-файл моего исследовательского кода, а через месяц мой алгоритм уже работал в продакшене. То есть мой код попал в раннюю версию поиска по изображениям в Яндекс Картинках.

Один из самых успешных примеров взаимодействия наших учёных и инженеров в области компьютерного зрения — это проект Шедеврум. В его основе лежит Yandex AI Rendering Technology (YandexART) — диффузионная нейросеть, разработанная в нашей компании, которая создаёт изображения и анимацию в ответ на текстовые запросы. Мы много консультируем команду Шедеврума, всеми научными аспектами руководит учёный из нашего отдела.

В Яндексе есть направление графовых нейросетей, то есть таких моделей, которые работают с данными в виде графа. Граф — это сложная структура, состоящая из большого количества элементов, между которыми есть связи. Например, граф дорог в Яндекс Пробках — это когда соседние локации связаны дорогой.

Недавно мы внедрили графовые нейросети в антифрод — это такой программный комплекс для выявления действий злоумышленников. Благодаря этому качество его предсказания значительно улучшилось.

Какие текущие исследования Yandex Research ты считаешь наиболее перспективными и значимыми?

Один из наших самых важных проектов посвящён доступности больших языковых моделей (LLM). Сейчас работать над ними могут немногие, в основном корпорации, у которых есть ресурсы на дорогое оборудование. Мы создали Petals — систему с открытым исходным кодом, которая позволяет запускать большие языковые модели в распределённой сети пользовательских компьютеров. Простыми словами, наша система распределяет нагрузку между несколькими устройствами. Это удешевляет работу с LLM, что делает исследования в этой области доступными и для небольших команд.

Активно изучаем генеративные модели в компьютерном зрении. Передовой проект в этой области — это как раз Шедеврум.

У диффузионных моделей на текущий момент много проблем, и мы занимаемся их решением. В первую очередь, диффузионные модели дорого обучать и дорого применять. Мы сейчас разрабатываем более эффективные алгоритмы, которые позволят снизить стоимость работы с ними.

Помимо дороговизны у них есть и ещё одна проблема. Сообщество не до конца понимает весь потенциал их применения. Мы изучаем новые возможности их использования.

Третье направление, с которым мы сейчас работаем, — это графовые нейросети, которые я уже упоминал. Четвёртое — всё, что связано с табличным deep learning. Такие модели решают задачи, у которых нет какой-то мультимедийной структуры, то есть это не картинки, звук или текст. Данные в них представлены разными типами значений: количество переходов, кликов, проведённое время и так далее.

Интересно, что эта область чуть ли не последняя, которую ещё не «захватили» нейросети. И мы в Yandex Research активно продвигаем новые решения. На самом деле, мы лидеры в области табличного deep learning — на нас равняются, нас приглашают спикерами на международные конференции и так далее.

Как вы в команде оцениваете успех ваших исследований?

На самом деле всё довольно просто, и мы ничем здесь не отличаемся от инженеров. Если наш подход, наше решение помогло улучшить бизнес-метрики, значит, эксперимент прошёл успешно.

С научными публикациями тоже всё прозрачно. Если статья была принята на научную конференцию, значит, сообщество её оценило. Лет шесть назад для нас было успехом просто попасть на топовые конференции.

Сейчас для нас важно не просто быть опубликованными, но чтобы наши статьи изменили отношение научного сообщества к какому-то вопросу или подходу.

Есть традиционный способ измерить это влияние — через цитируемость статей. У способа есть свои недостатки, но мы всё равно обращаем на это внимание.

Что команда испытала, попав в рейтинг MIT? Считаете ли вы это достойной оценкой своей работы?

Конечно, мы были рады. Нас больше обрадовало даже не то, что мы попали в этот рейтинг, а то, с кем мы туда попали. Потому что я знаю, какие огромные ресурсы и инвестиции у наших коллег по индустрии.

На самом деле, мы занимаемся этим не ради того, чтобы с кем-то конкурировать. Мы видим, чем мы можем помочь, и мы это делаем. Здорово, что нас оценили и мы стали заметны в мировом масштабе.

Сколько исследований вы выпустили в этом году? Сколько вышло всего?

Всего мы выпустили 246 исследований. За последний год вышло 17. Мы не целимся в увеличение количества, мы делаем упор на прорывные темы и решения.

Как представить свой доклад на конференции?

У каждой конференции есть дедлайн, дата, до которой нужно прислать научный труд. Интересно, что статьи присылаются анонимно, то есть никто не знает, от какой это компании и кто автор. После этого любой труд рецензируется несколькими учёными, причём тоже анонимно. А дальше всё просто: если статью одобрили — приходит приглашение, и мы едем выступать вживую или онлайн.

Расскажи про ваши партнёрства с вузами и другими компаниями.

В России наш ключевой партнёр — это ВШЭ. Как я уже говорил, мы в поиске резидентов, и этот вуз — наш основной источник аспирантов. Также мы набираем резидентов из МФТИ, Сколтеха, ШАД (Школы анализа данных Яндекса). Мы смотрим на эту программу как на инвестиции в молодежь. Резидентство — это не аудиторный курс, где есть домашние задания, лекции и так далее. Это «обучение в бою».

Если говорить про мировые высшие заведения, с которыми у нас выходили совместные статьи, то есть успешные завершённые исследования в этом году, то это ETH в Цюрихе, Институт науки и технологий (IST) в Австрии, Berkeley в Калифорнии и Стэнфорд.

С компаниями мы в этом году тоже сотрудничали. Делали совместные исследования с NeurIPS Challenge, где главным организатором выступил Microsoft, и с Hugging Face (американская исследовательская лаборатория и центр искусственного интеллекта — прим. ред.).

Давай обсудим конференцию NeurIPS, которая проходила с 12 по 16 декабря. У вас приняли восемь докладов. Это вообще много? Какие из них тебе кажутся самыми значимыми?

Да, действительно, приняли восемь докладов, но повторюсь, что мы не ориентируемся на количество. Для широкой общественности это, конечно, много, а для нас самих — неплохо. Для нас важно, чтобы наши исследования могли что-то радикально изменить в отрасли.

Доклады были по темам, которые я уже упоминал. Несколько исследований по графовым нейросетям, статья про дороговизну нейросетей и наши алгоритмы, которые позволяют использовать их более эффективно.

О чём ваша команда мечтает?

Генеративные модели работают быстро, качественно и доступны в каждом доме, на каждом девайсе. Процветает табличный deep learning, все используют нейросети, как и в остальных областях. Графовые нейросети — не просто игрушка для учёных, а общепризнанный практический инструмент.

15 комментариев

Sasha Step

18.12.2023

Яндекс стал единственной компанией из России,
Я что то пропустил? Это когда нидерландская компания стала Российской?

Ответить

Драка вегетарианца с людоедом

19.12.2023

Там эти учёные из MIT ещё жестко ошиблись в своём списке, назвав Baidu китайской компанией, ведь владеющий ею холдинг находится на Каймановых островах!

Павел Егоров

В тот момент, когда компания работает в основном на российском рынке (а не нидерландском), подавляющее число сотрудников - граждане России, а не Нидерландов, офисы разработки сосредоточены в России (а в Нидерландах это чуть ли не виртуальный адрес), а объем налогов, уплачиваемых в России, превышает аналогичное в Нидерландах поди даже не в разы, а в сотни?

Собственно, любому человеку, который хотя бы отдаленно, в рамках сна на последней парте на парах по экономике в универе, очевидно, нахрена российские компании 20 лет назад регистрировали себе головные компании за рубежом.

Василий П

24.12.2023

Тогда же когда ирландские компании стали американскими, чешские украинскими, а кипрские китайскими.

Ладно блин когда школота тупая про офшоры не шарит, но нахера на сайте такой тематики себя идиотом выставлять я не понимаю.

Артур Кожевников

Яндекс стал единственной компанией из России, которая вошла в рейтинг мировых лидеров в области ИИ

Если почитать тот рейтинг, быстро выяснится, что он строился в том числе по пиар-составляющей. Но если сравнивать субъективно, то у Сбера тот же GigaChat отвечает несколько точнее Алисы. Но в рейтинг не попал, потому что у них с пиаром хуже.

Михаил

Яндекс вошёл в рейтинг мировых лидеров в области ИИТем временем YandexGPT 2 Алиса

Денис Гагарин консалтинг

4 янв

Я тут компанию на яндекс-бизнес пытаюсь зарегистрировать... При регистрации в карточке устанавливается автоматически какой- то "левый" адрес. Поддержка Яндекс бизнес ничем помочь не может... Я это к тому, что иногда стоит опуститься с небес на землю. И прежде, чем обсуждать "влияние солнечных затмений на рост волос на голове", не мешало бы покопаться в том дерьме, которое вы сотворили. Корона не упадет. А выполнить роль службы контроля качества у вас, я уверен, получиться лучше всяких похвал. Глубже ныряйте - прям до дна канализации. И тщательнее ковыряйте.