«Будем учить менеджеров большим данным»

Материал написан при поддержке Сколтех

Специалист по компьютерным наукам Евгений Бурнаев о том, чем хороши нынешние студенты и что общего у авиастроения и крема для кожи.

Евгений Бурнаев — российский ученый, кандидат физико-математических наук. Профессор Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных «Сколтеха», заведующий Лабораторией интеллектуального анализа данных и предсказательного моделирования ИППИ РАН.

Расскажите, что изучает наука о данных.

Проще всего объяснить на конкретном примере. Допустим, есть некий технологический процесс с входными и выходными параметрами — например, проектирование крыла самолета.

На входе мы имеем такие параметры, как геометрия крыла, параметры внешней среды, структура материала. На выходе — аэродинамические характеристики. Мы можем накопить данные об аэродинамических характеристиках крыла при разных значениях входных параметров, проводя эксперименты в аэродинамической трубе и получая информацию от датчиков.

Или же мы можем провести вычислительные эксперименты с математическими моделями, основанными на физике процессов, на компьютере. При этом желательно выяснить у специалиста из прикладной области, какие параметры сильнее всего влияют на моделируемые характеристики.

Нужно учесть, что при применении методов анализа данных необходимо предварительно параметризовать описание объекта. Например, если речь идёт об описании крыла в виде CAD-модели — это набор координат вершин треугольников, на которые разбита поверхность крыла — необходимо это сложное представление каким-то образом «сжать» в набор меньшего числа более содержательных параметров. Все эти вопросы решаются в ходе длительного, итерационного процесса и обсуждения со специалистами.

Проведение вычислительных экспериментов с моделями на основе физики процессов требует временных затрат из-за значительной вычислительной трудоемкости как самих расчетов, так и подготовки расчетных сеток и прочего.

Трудоемкость расчетов существенно сокращает возможности использования такого рода моделирования, особенно на стадии предварительного проектирования, когда рассматривается большое количество вариантов решений и когда особенно высока цена неправильного решения.

Для примера, при проектировании современного самолета рассматривается до 100 тысяч вариантов компоновки, а для анализа прочностных характеристик силовых элементов самолета необходимо провести несколько миллионов численных экспериментов.

Допустим, что в результате проведенных экспериментов вы получили базу данных в виде таблицы, в каждой строчке которой приведены пары — набор входных параметров и соответствующий ему набор выходных параметров. После этого вы строите прогнозную модель, которая позволяет для нового объекта — например, для новой геометрии крыла — спрогнозировать, какие выходные характеристики у неё будут.

Используя такую модель, можно «крутить управляющие ручки» — менять входные параметры модели — и смотреть, каким образом будут меняться выходные характеристики, проводить масштабные вычислительные эксперименты.

Вооружившись «быстрой» моделью, вы можете эффективно управлять процессом. Например, заняться оптимизацией аэродинамической эффективности крыла, в случае других приложений — минимизировать брак в каком-либо технологическом процесса или оптимизировать затраты. У этой экономии есть ощутимый финансовый результат.

Это один из примеров того, чем прикладная наука о данных занимается в реальной жизни, но на каждом этапе процесса построения прогнозной модели есть свои сложности. Одна из главных — это сбор данных.

В любом сложном технологическом процессе мы должны обеспечить датчиками все стадии, на которых собираются данные и складировать их в базу. На практике же часть данных может теряться, часть отсутствовать, часть быть «битыми» (например, если датчик барахлит).

А еще часть может быть вообще выдумана из головы нерадивыми сотрудниками, записывающими все «на глазок».

Очистка данных (выявление и удаление ошибок в данных с целью улучшения их качества — прим. ред.) — это большая проблема в отрасли?

Да. Проблема точности данных стоит не только в промышленности или, скажем, в нефтегазовой отрасли, но и, например, в медицине и банковской сфере — везде, где пользуются устаревшими технологиями сбора и передачи информации с большой долей ручного труда.

Для улучшения ситуации, нужно автоматизировать все что можно, а это обычно требует серьезных вложений. На Западе, конечно, степень автоматизации в среднем выше, но и в России в последнее время есть существенные подвижки.

Помогают ли в очистке публично доступные базы данных, которые есть в ряде областей, например, лингвистике?

Тут тонкий момент: не для всех областей есть хорошие наборы открытых данных, иногда такие наборы данных просто недоступны. Даже в лингвистике есть ситуации, в которых алгоритм анализа данных может быть довольно специфичен для конкретной ситуации, например, при решении задачи автоматического определения тональности комментариев на тематическом сайте.

С техническим оборудованием все еще сложнее, данные могут быть уникальными. Тем не менее в науке о данных есть такие инструменты как transfer learning (повышение скорости и точности результатов обучения модели за счет учёта уже имеющихся результатов обучения на данных, собранных при сходных условиях) и domain adaptation (повышение точности прогноза модели для данных, которые имеют отличающиеся от обучающей выборки данных свойства). До некоторой степени они позволяют преодолевать эти трудности. Мы как раз занимаемся развитием такого рода методов.

Типичный пример задачи transfer learning: собираются данные высокой точности (например, продувка модели в аэродинамической трубе), а также данные низкой точности, полученные с помощью вычислительных экспериментов и описывающие тот же самый объект.
Данных первого типа мало, потому что их получение стоит дорого, а данных второго типа можно сгенерировать довольно много. Необходимо по общей выборке данных построить модель для прогнозирования данных высокой точности.

Можно сначала построить модель на «искусственных» данных, а потом уточнить её используя экспериментальные данные. Это работает не только в авиации, но и, например, в разработке лекарственных препаратов — можно быстро и дешево брать данные из имеющихся «вычислительных» моделей и уточнять их с помощью сравнительно небольшого количества очень «дорогих» экспериментальных данных.

В случае с языками можно взять модель, разработанную на основе каких-то данных из открытых источников, и «дотянуть» её с помощью специфических данных, относящихся к какой-то узкой теме. В сельском хозяйстве, например, можно брать открытые данные из стран с похожим климатом и откалибровать модель под местные условия по небольшой выборке исторических данных.

В моей научной группе мы занимаемся в том числе задачами адаптации, потому что они применимы ко многим отраслям и их решение позволяет существенно экономить ресурсы.

Как это помогает бизнесу? В каких отраслях в России лучше всего налажены сбор и очистка данных?

В России лучше всего обстоят дела в тех отраслях, которые автоматизировали относительно недавно, например, банки или крупные предприятия. Что же касается мелких и средних бизнесов, то для них технически простые решения закрывают пока 95% потребностей. К тому же, у них нет достаточного масштаба для сбора действительно больших массивов информации.

Для малого и среднего бизнеса технологии машинного обучения могут оказаться полезными в составе какого-то продукта, например, камеры, которая ведет учет посетителей магазина. Создать такой продукт — то есть выявить потребность и реализовать «коробочное» решение — достаточно тяжелая задача.

Например, мои коллеги из ИППИ сделали алгоритм распознавания автомобильных номеров, который работает даже с очень испачканными номерами. Другие коллеги из «Сколтеха» — автоматический подсчет товаров на полках с помощью камеры.

Считается, что большая проблема науки о данных заключается в том, что заказчики неправильно ставят задачи, и работа уходит в никуда. Вы занимаетесь системным обучением неспециалистов, чтобы они умели правильно взаимодействовать с учеными?

Это не проблема, это обычный рабочий процесс. Управленцы высшего звена что-то слышали про Big Data, и хотят, чтобы мы взмахнули волшебной палочкой и вмиг решили все их проблемы.

Если я в работе с потенциальным заказчиком вижу, что мы можем принести практическую пользу, но заказчик не понимает деталей, то я использую разговор одновременно для прояснения деталей, уточнения целей и ликбеза. Я подробно объясняю, сколько и каких данных понадобится, рассказываю об особенностях работы с конкретными методами.

Я вижу острую необходимость в просвещении и курсах повышения квалификации. В «Сколтехе» процесс обучения поставлен хорошо и в нашем центре по «Научным и инженерным вычислительным технологиям для задач с большими массивами данных» есть две учебные программы: моделирование на основе численных методов и физики процессов и моделирование на основе данных. Мы учим всем новомодным направлениям: deep learning, computer vision и так далее.

Благодаря хорошей организации этого процесса мы можем (и собираемся) организовать серию курсов, как для инженеров, так и для менеджеров высшего звена, то есть для людей, которые не обладают специальными навыками.

Менеджерам можно и нужно объяснять методологию науки о данных, потому что это упрощает нашу с ними работу. Программа курсов сейчас разрабатывается, лицензия у нас есть, реализуем в самое ближайшее время. Отрасль сама по себе не появляется, ее нужно формировать, чем мы и занимаемся.

Кстати, об обучении: откуда к вам приходят студенты, где вы их отлавливаете и в какой момент привлекаете?

Все довольно просто: в «Сколтехе» есть магистратура и аспирантура. В магистратуру студенты переходят из других вузов, для этого мы проводим экзамены два раза в год. Мы проводим небольшие кампании с открытыми лекциями в ведущих вузах, но в основном студенты приходят к нам сами.

Иногда мы приглашаем на семинары через социальные сети. Кроме того, есть программы совместной магистратуры с МФТИ и ВШЭ. В списке вступительных экзаменов есть английский, поскольку именно на нем ведется преподавание, к тому же ряд наших сотрудников не из России.

Знание английского языка — серьезное препятствие для наших студентов?

К счастью, у студентов топовых технических вузов с языком все намного лучше, потому что вся актуальная техническая литература на английском. Учебников более продвинутого уровня или по узкоспециальным темам на русском очень мало. Отсюда, кстати, и отсутствие русскоязычной терминологии — все употребляют англоязычную.

Если у студента есть международные научные амбиции — а у наших студентов они как правило есть — то смысл изучения языка для них очевиден.
Наши студенты по два года слушают лекции и выполняют домашние работы и проекты на английском — это прекрасная практика, которая хорошо готовит их к работе в международной среде.

Насколько сейчас популярны лекции по анализу данных?

Приведу пример из своего опыта: если на мой курс по прикладной статистике, который ранее проводился в Школе Анализа Данных, в начале записывалось 5-10 человек, то в последний раз домашние работы сдали 85 человек, при этом регулярно посещали занятия около 50 человек. Еще около 30 человек учились удаленно. В общем, тот курс удался, и видно, что сейчас у ребят есть огромный интерес к такого рода вещам.

Какие у вас основные задачи?

У меня как у сотрудника «Сколтеха» есть три основных KPI: работать со студентами и аспирантами, писать научные статьи, а также выполнять прикладные проекты для промышленности, сельского хозяйства и других отраслей. Мои аспиранты получают стипендию от государства и выступают соавторами статей.

В дополнение к этому, я активно ищу новые проекты по машинному обучению в индустрии, в этом мне помогают сотрудники профильных департаментов «Сколтеха». Эти деньги идут на финансирование студентов и аспирантов, которые выполняют большой объем работы.

Ваши основные расходы на науку — это оплата труда?

Нет. Некоторые виды вычислений требуют существенных затрат на дорогую вычислительную технику. Например, задачи deep learning требуют кластеров, содержащих мощные графические карты, которые не всегда возможно арендовать. Особенно если речь идет о каких-то проприетарных данных, которые нельзя выносить наружу по условиям соглашения.

В «Сколтехе» сейчас активно модернизируют подобную систему, которая стоит больших денег. Сейчас мы со студентами делаем проект по суррогатной оптимизации, где вычисления занимают очень много машинного времени: чем больше ядер и графических карт, тем лучше.

Хороший кластер, пригодный для наших задач, стоит десятки миллионов рублей. Также требуются средства для поездок на ведущие конференции, которые в массе своей проводятся за рубежом. Без этого крайне сложно оставаться в тренде и поддерживать кооперацию с другими учеными.

Какая самая странная или необычная проблема, с которой вы сталкивались?

Сотрудничая с компанией Datadvance, я занимался обработкой данных в авиакосмической индустрии и в других областях индустриальной инженерии. Там же я участвовал в разработке ставшей очень популярной среди инженеров библиотеки по анализу данных.

Однажды нам поручили заниматься задачей анализа данных по отбеливающему крему для кожи, предназначенному для азиатского рынка. На входе у нас были данные о его составе, а на выходе — лабораторные измерения влияния на кожу и качество отбеливания.

До нас рецептура крема составлялась эмпирически. Мы же создали прогнозную модель и выявили закономерности, которые позволили улучшить свойства крема. Но самое забавное: мы сделали это с помощью той же самой программной библиотеки, которую использовали для решения задач авиакосмической индустрии.

Большие данные — это не серебряная пуля. Их применение требует кропотливой подготовки и адаптации алгоритмов, но результат при правильном подходе, как правило, оправдывает усилия.

Подать заявку

#Сколтех

«Будем учить менеджеров большим данным»

Очищенные данные — большая удача

Отрасль еще предстоит сформировать