Как работает отдел исследований искусственного интеллекта в «Тинькофф»

Зачем компании заниматься наукой и как получить «Оскар» в сфере искусственного интеллекта.

Как работает отдел исследований искусственного интеллекта в «Тинькофф»

В 2020 году Тинькофф начал активно развивать концепцию AI-банкинга — банкинга на основе искусственного интеллекта. Вся существующая в банке экспертиза была объединена в Центре технологий искусственного интеллекта, который занимается разработкой новых сервисов. Одним из подразделений Центра стал отдел исследований — Tinkoff Research, в чьи задачи входит исследовать возможности искусственного интеллекта с научной точки зрения. О том, как удалось с нуля создать отдел, который публикует исследования на NeurIPS — главной мировой конференции в области AI (Artificial Intelligence), и базу для новых прорывных технологий и продуктов, рассказывает руководитель отдела Сергей Колесников.

Как появился Tinkoff Research

Разработками в сфере искусственного интеллекта Тинькофф занимается давно. Например, без машинного обучения не появились бы финансовый ассистент Олег, технологии распознавания и синтеза речи Tinkoff VoiceKit или система фрод-мониторинга, анализирующая нетипичные транзакции клиентов и защищающая их от мошенников. Созданием этих сервисов занимались продуктовые команды — они разрабатывают и улучшают продукты для наших пользователей.

Если компания успешно делает продукты, то зачем ей научные исследования? Чтобы ответить на этот вопрос, вспомним, как появились голосовые помощники. Сегодня они рассказывают пользователям о погоде, отвечают на звонки спамеров и составляют список покупок. Раньше компьютер с трудом мог определить тему статьи по ее содержанию, сейчас уже существует чат-бот (ChatGPT от OpenAI), который может не только поддержать диалог с человеком, но и самостоятельно написать подобную статью. Однако такого результата вряд ли можно было бы достичь без научных исследований в этой области — например, таких работ, как Word2Vec (2013), BytePairEncoding (2015), Attention Is All You Need (2017) и GPT-2/3 (2019, 2020).

Творчество ChatGPT
Творчество ChatGPT

С одной стороны, исследовательская работа позволяет нам понять, на что в принципе способны технологии искусственного интеллекта, а на что — пока нет. С другой стороны, на основе этих исследований создаются технологии, меняющие жизни и привычки людей. Перевод с одного языка на другой, генерация изображений, синтез лица и речи — все эти технологии, которые мы считаем привычными, появились всего лишь несколько лет назад благодаря исследованиям в области искусственного интеллекта. Именно над такими перспективными направлениями мы и работаем в Tinkoff Research.

Прорывные исследования в сфере машинного обучения уже давно ведутся в индустриальных лабораториях, а с 2021 года такая лаборатория появилась и в Тинькофф. У нас нет цели улучшить конкретные продукты, хотя иногда мы взаимодействуем с продуктовыми командами. Мы занимаемся инновациями: проводим исследования, создаем новые технологии, пишем по ним научные статьи и отвечаем за экспертизу Тинькофф в области искусственного интеллекта с академической стороны. А чтобы это стало возможным, нанимаем лучших специалистов в области.

Кто занимается исследованиями

Сейчас в Tinkoff Research работают девять человек — исследователей и студентов технических вузов. В нашей работе мы очень ценим замотивированных студентов: чаще всего у них еще нет опыта работы, поэтому они открыты новым идеям, мыслят вне шаблонов и не боятся ошибаться. А мы, в свою очередь, помогаем им ошибаться как можно реже. В самом Тинькофф уже давно есть Tinkoff Lab, исследовательская лаборатория Тинькофф в МФТИ, благодаря которой мы можем нанимать студентов любых вузов по всей России.

Часть команды отдела исследований
Часть команды отдела исследований

По исследованиям мы сфокусированы на трех основных направлениях:

  • Компьютерное зрение (CV), чтобы создавать методы для более точного понимания и распознавания визуальных образов.
  • Обработка естественного языка (NLP) для развития подходов по продолжению смысловых последовательностей.
  • Обучение с подкреплением (RL), где мы исследуем применимость RL-алгоритмов для автоматизации последовательного принятия решений.

Кроме этого мы совместно с отделом персонализации активно занимаемся исследованиями в области RecSys — рекомендательных систем. В основном исследуем применимость графовых нейронных сетей для рекомендаций, корректность оценки RecSys-систем и методы учета времени для повышения качества рекомендаций. Сейчас такие системы позволяют предлагать пользователям категории кэшбэка и персонализированные предложения от партнеров в мобильном приложении. О том, какие исследования получаются у наших студентов, можно узнать из записи Tlab-ивента. А о том, как мы внедряем исследовательские наработки в продукты, рассказывал на примере умной ленты в социальной сети для инвесторов «Пульс» мой коллега.

Чуть реже мы занимаемся исследованиями в области звука совместно с командой синтеза и распознавания речи. Например, недавно опубликовали статью про новый state-of-the-art подход к изменению голоса, которого добились общими силами.

Как мы ищем звезд в команду

Не буду лукавить: большинство людей, которые сейчас работают с нами, я так или иначе знал лично еще до создания отдела. Исследовательское сообщество, и в частности в области машинного обучения, довольно маленькое. Когда потребовалось собрать с нуля команду, все нужные контакты уже были под рукой. С одной стороны, это сильно облегчало задачу, с другой — собирать команду в новую исследовательскую лабораторию было непросто. Сейчас нанимать значительно проще, конечно: есть публикации на конференциях.

Для исследователя наиболее значимыми были и остаются три вещи:

  • внутренняя мотивация и заинтересованность человека в его области экспертизы;
  • умение критически мыслить и систематизировать проверку своих гипотез, объяснять, почему те или иные эксперименты нужны, презентовать результаты исследований;
  • умение технически корректно имплементировать проверки гипотез.

Как мне кажется, именно сильная внутренняя мотивация — отличительная черта для исследовательской работы.

Например, в продуктовых командах чаще всего понятные метрики оценки работы — это продукт, который надо оптимизировать, сделать его удобным для пользователя. Но с исследованиями все иначе: можно работать над своей идеей неделями, но не получать ожидаемых результатов, подтверждающих гипотезу. В такие моменты важно сохранять страсть к тому, чем занимаешься. И вовремя переходить к другой идее, чтобы поддерживать свою заинтересованность.

Как мы работаем

Из-за сильной индивидуальной составляющей наш рабочий процесс несколько отличается от привычного процесса в продуктовых командах. За две недели исследовательскую статью не напишешь, да и предсказать, какая из гипотез окажется рабочей, непросто. Но некоторых правил мы, конечно, придерживаемся.

Как и в любой другой науке, все начинается с двух вещей: с проблемы и гипотезы по ее решению. Проблема должна быть значимой, решение — новым, а гипотеза по проверке решения — конкретной и с измеримым результатом. Любой исследователь в нашем отделе может выбрать интересную ему проблему и обсудить ее возможные решения со всей командой. Если в ходе обсуждения мы понимаем, что проблему стоит исследовать, автор берет две недели и необходимое количество вычислительных ресурсов в нашей инфраструктуре на проверку своей гипотезы.

Если за две недели не удалось достичь ожидаемых результатов (в исследованиях это нормально), автор переходит к новой теме. А если получилось найти что-то интересное, мы повторно обсуждаем результаты и начинаем работу над полноценной статьей для конференции.

Такое большое количество обсуждений и перепроверок друг друга нужно по двум причинам:

  • В нашем отделе каждый — эксперт в своей области. Он может быстро указать, если кто-то уже предлагал или реализовал похожую идею.
  • Чтобы статья попала на конференцию, она должна пройти процесс анонимного ревью. В ходе такого ревью эксперты-академики со всего мира из совершенно разных областей оценивают значимость работы и ее вклад в общее развитие науки в сфере искусственного интеллекта. Чтобы пройти ревью успешно, очень важно уметь объяснить свои идеи и гипотезы и доказать их значимость и новизну.

Почему конференции так важны

Если успех продукта измеряется его прибыльностью, то успех исследовательского отдела — научными публикациями и признанием в сообществе. Чем больше цитирований публикаций и чем крупнее конференции, в которых они были опубликованы, тем лучше. В сфере исследований искусственного интеллекта есть три крупнейшие конференции — NeurIPS, ICLR и ICML. Эти конференции можно сравнить с «Оскаром», только в области AI.

Ежегодно на каждую из этих топовых конференций исследователи присылают тысячи работ. Разумеется, принимают далеко не все статьи, поэтому публикация на такой конференции — огромное достижение для любой исследовательской группы. В этом году таких публикаций у нас было две: одну из них приняли на ICML, вторую — на NeurIPS. Если вам интересны технические детали наших исследований, можно прочитать о них на Хабре.

Что дальше и какие у нас планы

На этом мы, разумеется, не останавливаемся. Несколько наших статей уже находится на этапе конференс-ревью сейчас, а на следующий год мы готовим еще больше тем для исследований. И продолжаем искать студентов в нашу Tinkoff Lab — информацию можно найти на сайте лаборатории.

Кроме этого мы стараемся развивать ML-сообщество как внутри Тинькофф, так и в целом. Каждые два месяца устраиваем митапы: выступаем сами и приглашаем спикеров из других компаний. Записи обычно выкладываем на наш ютуб-канал. А ссылками и новостями делимся в телеграм-канале «Жёлтый AI».

Если вам интересны машинное обучение и исследования в этой области — подписывайтесь. А если хотите присоединиться к команде — пишите нам на open call, будем рады пообщаться про значимые проблемы ИИ-исследований и их возможные решения.

8282
114 комментария

Как мы ищем звезд в командуЯсно же, что по цвету волос

46

И почему они не в Грузии?

7

Комментарий недоступен

Комментарий недоступен

29

Комментарий недоступен

16

Писать тупые алгоритмы для ботов?- да в каждом серьезном анализаторе для Big Data есть кастомизированные готовые решения по работе со статистикой. С каких пор это стало исследованиями по ИИ, все равно, что скачать и установить плагин для WordPress и называть это прорывной работой в it. По ходу это рабочий прием для таких команд- прямая дорога всем в Силиконовую долину или Google, шлите резюме, чего ждёте?

5