Кейс: как мы учили роботов и при чем здесь VR-двойник рентгеновской лаборатории в Гамбурге

Собственность России за рубежом — это не только яхты и дворцы, но и крупные научные установки. Так, нам принадлежит четверть рентгеновского лазера EuXFEL на свободных электронах, который располагается в тоннеле длиной 4 км под Гамбургом.

На этой установке исследуются:

новые материалы для квантовых компьютеров;
сверхбыстрая память;
вирусы.

Россия не только вложила 1 млрд Евро в строительство, но и ежегодно оплачивала часть операционного бюджета, за что учёные из РФ получали доступ на проведение исследований для своих образцов. Сейчас совместные работы приостановились, но похожие установки будут построены и в России — в Протвино и Новосибирске.

Наш небольшой стартап за 1000 километров от Москвы тоже внёс свой небольшой вклад в развитие российско-немецкого сотрудничества. Мы сделали цифрового двойника подземной рентгеновской лаборатории EuXFEL.

Учёные со всего мира соревнуются, чтобы провести свой эксперимент на этой установке. Выигравшие конкурс, высаживаются в Гамбурге десантом из 10 человек и работают круглосуточно 2-4 дня.

Шанс выпадает раз в году, стоимость суток работы установки для налогоплательщиков около 300 тысяч $, поэтому все стараются хорошо подготовиться до приезда в EuXFEL и работать без ошибок.

С помощью виртуальной лаборатории, которую сделала наша команда, исследователи могут заранее подготовиться к своему эксперименту и не терять ценное время на ознакомление с площадкой, когда окажутся на месте.

Рисунок 1. Вид из виртуальной лаборатории в ходе проведения рентгеновского исследования

Мы думали, что обучение людей — это основная ценность нашего трёхлетнего проекта с Гамбургом. Но недавно взглянули на виртуальные лаборатории с другой стороны. Вот, Open AI хоть и создает теоретические алгоритмы для ИИ, но их открытый код позволяет выигрывать в Доту и решать вполне практические задачи. И мы подумали: чем мы хуже?

Трёхмерный мир с приборами и запрограммированной логикой работы с оборудованием можно использовать с пользой не только на научной установке в Гамбурге — но и для тренировки алгоритмов роботов.

Так называемое обучение с подкреплением (RL, reinforcement learning) использует агентов, которые играют в компьютерной среде, зная на входе только правила игры, и потом, научившись методом проб (поощряемых в случае выигрыша) и ошибок, справляются с лучшими игроками и даже командами из реального мира.

В качестве игры мы предложили алгоритму настройку оптической схемы эксперимента и он [алгоритм] после миллиона попыток научился настраивать 25 параметров оптических линз за 10 секунд, в отличие от нескольких часов, которые уходят у инженеров на решение такой задачи. Такой подход позволит экономить до 20% времени всего эксперимента (что эквивалентно десяткам тысяч долларов)!

Рисунок 2. Схема работы алгоритма машинного обучения с подкреплением

Две крупнейшие среды разработки компьютерных игр — Unity и Unreal совсем недавно интегрировали в свои продукты инструменты для обучения искусственного интеллекта.

Теперь команды, которые разрабатывают роботов, могут легко обучить алгоритм выживать и работать внутри виртуальной игры. Фишка в том, что эти решения работают “из коробки” и первые шаги можно сделать даже в отсутствие штатных специалистов по машинному обучению в составе команды.

Интересно, что задача, которую мы решали в рентгеновской лаборатории имеет и другие применения:

Немного магии с Unity ML-agents, и вот наш искусственный интеллект обучается с помощью роборуки не линзы двигать, а правильно упаковывать товары в автомобиль!

Рисунок 3. Применение натренированного алгоритма к задаче упаковки

Поначалу роборука в новой задаче работала кривовато и смешно. Ящики разбивались о крышу автомобиля или летели в сторону.

Консультации с математиками помогли узнать, что и эти проблемы уже решены в науке. Учёные вместе со своими статьями выкладывают проекты с исходным кодом. Такой проект HER был и для роборуки, увеличивающий точность захвата и позиционирования до 98%.

Мы хорошо натренировались в лаборатории и теперь перешли к коробкам с товарами.

Кейс: как мы учили роботов и при чем здесь VR-двойник рентгеновской лаборатории в Гамбурге

Материал подготовлен ООО Унивирлаб

Кейс: как мы учили роботов и при чем здесь VR-двойник рентгеновской лаборатории в Гамбурге

Учить не людей, а роботов