«На любую задачу мы смотрим как на математическую»

Материал написан при поддержке Сколтех

Специалист по компьютерным наукам Михаил Беляев о том, когда человек сможет управлять устройствами с помощью силы мысли.

Анализ данных и машинное обучение — это не только распознавание улыбок в камерах смартфонов и показ товаров в зависимости от предпочтений покупателя. Большие данные помогают компаниям сэкономить деньги и время на разработке высокотехнологичной продукции, победить неизлечимые болезни и помочь парализованным людям общаться с миром.

Научный сотрудник «Сколтеха» Михаил Беляев на примере своих проектов показал процесс работы с данными и рассказал, как человек может управлять различными устройствами при помощи «силы мысли».

Михаил Беляев — молодой российский ученый, кандидат физико-математических наук, научный сотрудник «Сколтеха», выпускник МФТИ. Заведует Сектором анализа данных в нейронауках ИППИ РАН.

Известен своими работами в области аэрокосмической техники, машиностроения и анализа данных. Несколько работ посвящены нейродегенеративным заболеваниям — болезни Альцгеймера, Гентингтона, Паркинсона. Научный руководитель — профессор «Сколтеха» Максим Фёдоров.

Михаил, расскажите, какую школу заканчивали? Математическую?

Вовсе нет. Я закончил обычную рязанскую общеобразовательную школу, но учился в физико-математическом классе. Затем поступил в физтех на факультет радиотехники и кибернетики, изучал анализ данных и машинное обучение. Ещё будучи студентом начал участвовать в индустриальных проектах. Мне удалось разработать и внедрить алгоритмы машинного обучения для нескольких крупных инженерных компаний.

Над какими проектами вы работали?

Одна из задач, над которой мы работали, была связана с болидом «Формулы-1». Самая тяжелая часть болида — капсула безопасности, в которой сидит гонщик и вокруг которой строится шасси. Нужно было уменьшить массу капсулы, но не потерять в прочности, чтобы во время аварии уберечь гонщика от травм.

Вычислительные эксперименты только одной конфигурации занимали почти сутки. С учетом того, что параметров было много, нам пришлось бы перебрать миллион вариантов. Понятно, что миллиона суток на решение этой задачи ни у кого нет.

Чтобы решить задачу, нам были нужны данные экспериментов, которые проводились в естественных условиях и на реальных капсулах безопасности. Для таких экспериментов изготовили около 30 капсул и потом их сломали. Это стоило больших денег, и можно было просто создать модель капсулы с похожими характеристиками и оценить ее прочность при помощи вычислительных экспериментов. Но в этом случае мы бы получили неточные результаты.

В результате проведенных экспериментов у нас на руках был набор параметров различных вариантов капсулы. При помощи этих параметров нам предстояло найти математические формулы, которые хорошо описывают эти данные. И основаны эти формулы не на аэродинамике, не на знании физических процессов, а только на данных, которые мы получили в результате экспериментов.

Математические формулы — как кубики конструктора. Из них собирается система, которая умеет делать точные прогнозы и выдавать готовые решения.

Мы построили модель, которая для разного набора параметров сообщала, что при таких-то данных прочность капсулы будет вот такой. У нас получилась «машинка», которая быстро выдает ответы для разных комбинаций параметров. Мы могли перебирать разные варианты параметров или использовать специальные алгоритмы оптимизации, чтобы найти лучшее решение.

В итоге нам удалось уменьшить массу капсулы на 10%, не пожертвовав её прочностью и безопасностью.

После окончания МФТИ вы продолжили научную деятельность и стали сотрудником Института проблем передачи информации Российской академии наук (ИППИ РАН) и компании Datadvance, спин-оффе ИППИ РАН, где в том числе руководили проектом построения модели системы охлаждения атомной электростанции. Машинное обучение способно предотвратить катастрофу, подобную Чернобыльской?

У нас была более скромная задача. Мы построили прогностическую модель засорения системы охлаждения атомной электростанции.

На электростанциях обычно используется водяная система охлаждения. Она состоит из огромного количества трубок, по которым течёт вода и охлаждает пар, используемый для вращения турбин. Со временем эта система начинает засоряться. Заказчик хотел понять, можно ли при помощи данных электромагнитных измерений снаружи трубы узнать, насколько всё забито внутри. Мы построили модель, которая по произведенным измерениям достоверно описывала степень засорения.

«На любую задачу мы смотрим как на математическую»

Весь наш опыт и разработки, которые мы использовали в проектах с «Формулой-1», Airbus и другими заказчиками, легли в основу алгоритмического ядра программы pSeven, которая помогает инженерам без опыта работы с анализом данных улучшать технические характеристики проектируемых продуктов.

Сколько обычно времени уходит на один такой проект?

В зависимости от сложности проекта, на такую работу уходит 1-2 месяца. Причем большая часть времени тратится не на решение задачи, а на то, чтобы ее сформулировать.

Все наши работы с «Формулой-1», Airbus и другими компаниями можно разбить на две части.

Первая часть — придумать математический метод, который позволяет построить модель, и сделать программу, которая работает так, как мы задумали. Вторая часть — взять конкретную задачу и данные, применить созданный нами метод к этим данным и решить задачу.

У инженеров, которые работают над созданием сложного объекта, всегда есть набор параметров, которые нужно улучшить.

Часто люди думают, что с помощью машинного обучения можно быстро решить любую задачу: надо лишь загрузить данные и «подвигать ползунки». Но всё не так просто.

Очень много времени уходит на то, чтобы погрузиться в специфику области, поговорить с инженером, что-то почитать, ещё раз поговорить и сформулировать задачу анализа данных таким образом, чтобы она отвечала нуждам заказчика. То есть была привязана к той цели, которая у него в голове.

Обычно проект проходит несколько итераций. Сначала ты формулируешь гипотезу, потом проводишь эксперименты, приходишь с результатами к инженеру. Он говорит: «Да, это здорово, но не то, что нужно». Приходится возвращаться к обсуждению задачи и начинать заново.

В 2015 году вы возглавили отдел анализа данных в области неврологии в ИППИ РАН. Почему с авиации и машиностроения переключились на медицину?

Я по-прежнему занимаюсь математикой и анализом данных. В медицине так же, как в случае с задачами индустриального проектирования, мы разрабатываем методы анализа, которые адаптированы к определенному типу данных. Например, к МРТ мозга. Мы не лечим, а пытаемся анализировать данные, чтобы как можно раньше диагностировать болезнь, смоделировать ее развитие и оценить эффективность терапевтического вмешательства.

Допустим, врач наблюдает пациента в течение длительного промежутка времени (например, 1-2 года). Доктору важно понимать, как будет развиваться болезнь в дальнейшем, чтобы проводить эффективное лечение и предотвратить появление нежелательных симптомов (очень яркий пример таких симптомов — это суицидальные наклонности у людей с болезнью Гентингтона).

Наша задача состоит в том, чтобы, зная историю болезни пациента, предсказать развитие болезни в будущем. Современный уровень информационных технологий позволяет собирать обширные базы данных о больных, которые страдают тем или иным заболеванием (болезнь Альцгеймера, Паркинсона или Гентингтона). Поэтому для решения поставленной задачи можно использовать продвинутые методы анализа данных, чем мы и занимаемся.

Профессор «Сколтеха» Владимир Зельман рассказывал, что международному проекту Enigma, который занимается изучением мозга человека, как раз не хватает математиков. Сбор материала они наладили, теперь нужно всё это обработать.

Проект Enigma изучает анатомические различия мозга при патологии и пытается понять, где находятся участки генома, которые кодируют анатомию мозга. Мы хотим привнести в этот проект современные методы анализа данных, но пока эта идея на стадии запуска. Этот процесс непростой и небыстрый, ведь в проекте участвует более 100 центров по всему миру.

В «Сколтехе» как раз сейчас занимаются проектом CoBrain, который поддержали в рамках Национальной Технической Инициативы (НТИ). Задача проекта — создать инфраструктуру сбора и анализа данных о структуре и функционировании мозга. У нас большие планы на сотрудничество с ведущими российскими медицинскими центрами.

Ведь мы сами не можем сформулировать те клинические задачи, которые могут быть полезны обществу, поэтому нам важно найти партнеров, которые смогут в этом помочь. Нужен постоянный контакт профессоров, научных сотрудников и врачей, которые каждый день общаются с пациентами. Нужны специалисты по радиологии, которые делают снимки МРТ и глубоко понимают особенности этой процедуры.

Вокруг больших данных есть миф: мол, нужно всего-то собрать данные, отдать их куда-нибудь и произойдут какие-то чудесные открытия. Но это так не работает. Нужна плотная совместная работа ученых и врачей.

Мы должны построить инфраструктуру, с помощью которой можно будет обрабатывать данные о мозге с помощью МРТ, ЭЭГ и других способов. Нужно специально под эти данные разработать методы анализа, чтобы в дальнейшем эта инфраструктура стала площадкой для проведения научных медицинских исследований и местом рождения новых идей и стартапов.

Вы сейчас работаете над созданием нейроинтерфейса «мозг-машина». В будущем человек сможет управлять различными техническими устройствами при помощи силы мысли?

На самом деле эта технология существует уже лет 15, но у нее есть существенное ограничение — она очень медленная. Такую систему пытались сделать для Twitter, чтобы парализованный человек мог писать по символу. Оказалось, что на набор одного твита ему нужно потратить полчаса. Скорость — это основной лимитирующий фактор. Поэтому наши исследования направлены не на то, чтобы создать такие способы — они уже есть, а на то, чтобы ускорить и развивать эту технологию.

В рамках того же НТИ есть проект Александра Яковлевича Каплана. Этот проект посвящен разработке более удобной системы для парализованных людей, которые могли бы взаимодействовать с миром с помощью нейроинтерфейса, в том числе общаясь с врачами и родственниками. Специальная гарнитура считывает нейрофизиологические показатели пациента и преображает его мысли в текст, набранный на клавиатуре.

В итоге обездвиженный человек может при помощи мысли набрать текст без всяких усилий: на экране даётся весь алфавит, человек концентрируется взглядом на букве и таким образом печатает текст. Чтобы всё правильно работало, нужно провести много экспериментов и научить машину правильно распознавать сигналы мозга. Человеку показывают буквы, следят за электрической активностью мозга и заносят полученные данные в каталог.

Когда человек смотрит, допустим, на букву «а», датчик фиксирует электрическое колебание, алгоритм сканирует каталог, проверяет, какой букве соответствует это колебание и выводит на экран букву «а».

Вы много времени отдаете науке. Успеваете преподавать?

Я преподаю в «Сколтехе» и МФТИ, с коллегой читаю курс по «Введению в машинное обучение и анализ данных». В «Сколтехе» мы сделали прикладной курс: пытаемся научить ребят работать с данными, чтобы они получили практические навыки по построению таких моделей и дальше могли их использовать в своей исследовательской работе. Мы читаем этот курс для студентов разных специализаций, например, для биологов. В сентябре наш курс прослушало около 60 студентов.

В каком формате проходят занятия? Вы читаете лекции?

Идея нашего курса — отказаться от лекционного формата и сосредоточиться на выполнении практических заданий в формате семинара. Задания примерно такого вида: вот вам данные, нужно с ними сделать вот это. Ничего кроме данных мы им не даем. Студентам нужно придумать, как они все это будут обрабатывать, и написать свою программу для обработки. А в качестве финального проекта, мы даем реальную задачу из бизнеса и науки или предлагаем сделать проект, который связан с их исследованием, с той научной работой, которую они ведут.

Можете рассказать об одном из проектов ваших студентов?

Эмиль Давлетов, студент магистратуы «Сколтеха», занимается изучением сверхнизких температур. Во время эксперимента, в специальной установке сжимается облако атомов, а затем необходимо пронаблюдать, насколько быстро это сжатое облако начинает расширяться. Чем быстрее оно расширяется, тем выше его температура.

Стандартная технология заключалась в том, что нужно было на специальном оборудовании сделать серию из 10 фотографий. За один эксперимент невозможно успеть отснять 10 фотографий, потому что облако разлеталось слишком быстро. Приходилось делать 10 экспериментов: в первом фотографировать на моменте старта, во втором с небольшой задержкой после старта и так далее. Таким образом проведение эксперимента занимало много времени, которое тратилось на то, чтобы всю эту систему настроить и запустить 10 раз.

Идея проекта заключалась в следующем: можно ли добиться результата, если вместо десяти фотографий сделать только две, и подключить к анализу методы машинного обучения? Оказалось, можно. На выходе Эмиль получил хорошее качество предсказания результатов всего эксперимента.

То есть мы можем проводить эксперимент в пять раз быстрее, оценивать то, что получилось, и в случае интересных результатов проводить уже полный эксперимент, чтобы получить достоверные цифры. Я доволен, что студенты стали применять знания, которые мы им дали, в своих исследованиях.

С какими целями приходят учиться в «Сколтех»?

Цели у студентов разные, и «Сколтех» дает возможность реализовать себя в разных областях, поскольку сочетает три ключевых компонента: наука, образование и инновации. Во многих вузах эти три компонента никак не соединяются. Лекции читают сотрудники, которые, как правило, не занимаются наукой. У них такая учебная нагрузка, что наукой им заниматься просто некогда.

Вся научная работа идет в Академии наук, но в большинстве случаев ученые не преподают и оторваны от образовательного процесса, они не передают свои знания и опыт студентам. За исключением редких случаев, в институтах пока нет нормальных механизмов, которые помогают передовые научные открытия использовать в стартапах.

«Сколтех» задуман как место, где лекции читают ведущие ученые и профессора. Они читают лекции коротким интенсивным курсом: два месяца по 3-4 раза в неделю, а остальное время занимаются научной работой. При этом занятия строятся с учетом всех современных достижений.

Поскольку я совмещаю научную работу с преподавательской деятельностью, то делюсь со своими студентами теми методами, которые сам использую в своих исследованиях и работе. Мне кажется, в «Сколтехе» это достаточно гармонично сочетается.

2 комментария

Михаил, что такое эти "электромагнитные измерения" системы охлаждения реактора? Засоры же наверняка формируются из какой-нибудь диэлектрической накипи. Как ее можно померить электромагнитно?

Ответить

Mikhail Belyaev

27.04.2017

Владимир, в данном случае проблема в коррозии, то есть забивается не из-за накипи, а из-за ржавчины.
Довольно подробное описание можно найти в книге Physical and Statistical Models for Steam Generator Clogging Diagnosis, в частности, вот в этой главе: http://www.springer.com/cda/content/document/cda_downloaddocument/9783319093208-c2.pdf?SGWID=0-0-45-1470023-p176846609