Автоматизация науки: как учёные применяют ИИ, нейросети и машинное обучение

Конспект материала научного журналиста Дэна Фока.

Человек не в состоянии обработать терабайты данных, получаемых в ходе исследований в области физики и астрономии, и количество этих данных продолжает расти, считает Фок. В подтверждение он приводит в пример Square Kilometer Array — радиоинтерферометр, который после запуска будет производить столько же трафика, сколько весь интернет.

Проект сверхмощного радиотелескопа Square Kilometer Array «<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2FSquare_Kilometre_Array&postId=63005" rel="nofollow noreferrer noopener" target="_blank">Википедия</a>»
Проект сверхмощного радиотелескопа Square Kilometer Array «Википедия»

Поэтому учёные начали использовать ИИ. Искусственные нейронные сети — это смоделированные на компьютере нейросети, они находят общие структуры и определяют несоответствия в данных, которые человеку затруднительно обнаружить самостоятельно.

Автор обращает внимание, что хотя компьютеры используются в исследованиях уже около 75 лет, а люди тысячелетиями систематизируют данные, машинное обучение и ИИ сейчас — это нечто новое.

В качестве примера он приводит обобщённое моделирование. Его задача — определить наиболее правдоподобную интерпретацию данных наблюдений на основе исключительно этих данных, без каких-либо заранее заложенных знаний о физических процессах исследуемой системы.

Автор статьи разделяет учёных на два лагеря: представители первого относятся к таким новинкам как к вспомогательным инструментам; представители второго, и их большинство, верят, что роль искусственного интеллекта в науке будет увеличиваться.

Во втором лагере находится астрофизик Фермилаба Брайан Норд. Нейросети на основе искусственного интеллекта помогают ему в изучении космоса, и он верит, что всё, что может сделать учёный, может сделать и машина. «Эта мысль немного пугает», — добавил Норд.

Генерирование данных с помощью нейросетей

В 2007 году сотрудник Швейцарской высшей технической школы Цюриха Кевин Шавински запустил проект Galaxy Zoo. Интернет-пользователи помогали астрономам выбирать категории для галактик, делая свои догадки. Выбранная большинством пользователей категория обычно оказывалась верной.

По словам Шавински, сейчас талантливый учёный с опытом машинного обучения и доступом к облачной вычислительной среде справится с этой задачей за один вечер с помощью ИИ.

Шавински пришёл к использованию обобщённого моделирования в 2016 году. Суть этого метода — ответить на вопрос: «Если условие Х, то с какой вероятностью конечным результатом станет Y?». Пример такой модели — программа, которая умеет предсказывать, как изменится внешность человека с течением времени.

Генеративная модель пропускает через себя изображения человеческих лиц с указанием на них возраста, а программа определяет общее свойство «у старых людей есть морщины» и таким образом может виртуально «состарить» любое лицо.

Системы обобщённого моделирования, называемые генеративно-состязательными сетями (ГСС), умеют восстанавливать повреждённые изображения, делать размытые фото более чёткими.

Сеть состоит из двух частей: первая — генератор ложных данных, вторая — детектор, который должен отличить ложные данные от реальных. Состязаясь таким образом, сеть учится определять недостающую информацию и постепенно развивается. Так ГСС создают реалистичные лица, которые на самом деле не существуют.

<p>Лица в колонках А и B созданы генеративно-состязательной сетью (ГСС) с использованием фрагментов реальных лиц. Эта сеть объединила фрагменты лиц из колонки А с лицами из колонки B и создала новые лица</p> <p>Взято из <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.youtube.com%2Fwatch%3Fv%3DkSLJriaOumA&postId=63005" rel="nofollow noreferrer noopener" target="_blank">Nvidia</a></p>

Лица в колонках А и B созданы генеративно-состязательной сетью (ГСС) с использованием фрагментов реальных лиц. Эта сеть объединила фрагменты лиц из колонки А с лицами из колонки B и создала новые лица

Взято из Nvidia

Далее Фок описывает обобщающее моделирование в более широком плане. Эта система берёт наборы данных (обычно изображений), разбивает их на более мелкие «кирпичики», которые учёные называют «потенциальным пространством». Затем алгоритм переставляет эти базовые элементы, наблюдает, как от этого меняются исходные данные, и таким образом узнаёт физические процессы в основе системы.

Идея «потенциального пространства» абстрактна, её тяжело представить визуально. Поэтому автор предлагает сравнить её с тем, как люди пытаются определить пол другого человека. Мы обращаем внимание на волосы, форму носа и другие вещи, которые тяжело описать словами.

Компьютерная программа работает по такому же принципу: пусть она и не знает, что такое «пол» или «усы», когда увидит, что достаточно изображений с тегом «мужчина» также имеют тег «усы», а изображения с тегом «женщина» «усов» не имеют, сделает определённый вывод.

Научный журналист Фок рассказывает об эксперименте Шавински и его коллег в технической школе Цюриха Денниса Терпа и Цэ Джана, результаты которого были опубликованы в журнале Astronomy & Astrophysics. Эти учёные использовали обобщённое моделирование, чтобы узнать, какие физические изменения претерпевают галактики с течением времени.

Модель, которую они использовали, технически не являлась ГСС, но была на неё очень похожа — она создавала искусственные данные для проверки той или иной гипотезы. Например, учёные применили программу, чтобы узнать, как резкое снижение скорости образования новых звёзд связано с растущей плотностью галактики.

Главное было — понять, как много информации можно получить о процессах, происходящих в звёздах и галактиках, на основе одних только имеющихся данных.

Давайте избавимся от всех наших знаний в области астрофизики. Сколько мы сможем узнать заново, пользуясь только голыми данными?

Кевин Шавински, астрофизик и директор компании Modulos, изучающей ИИ

Учёные взяли изображения галактик, находящихся в среде с низкой плотностью, и посмотрели, как бы они выглядели в высокой плотности. В итоге исследователи обнаружили, что при переходе из низкой плотности в высокую галактики становятся более красного цвета, а звёзды внутри них собираются ближе к их центру. Такие данные были получены и при наблюдении за галактиками. Но Шавински хотел знать причину этого.

И здесь необходимо вмешательство человека: надо было подумать, что могло таким образом повлиять на состояние галактики. Шавински выдвинул две гипотезы: увеличение количества пыли или замедление образования новых звёзд могло придавать галактикам красноватый цвет в среде высокой плотности.

Для проверки этих гипотез вновь использовали обобщённое моделирование. Изменили потенциальное запыленное пространство и скорость образования звезд, чтобы увидеть, как изменится цвет галактики.

В конце эксперимента учёные ясно увидели, что более насыщенным красным цветом обладали галактики, в которых снизилась скорость образования новых звёзд, а не те, в которых изменилась запыленность. Поэтому предпочтение отдали теории, связывающей плотность среды галактики и скорость образования звёзд.

<p>Изменения в галактиках, перешедших из космической среды низкой плотности в области с высокой плотностью. Визуализация стала возможной благодаря обобщённому моделированию</p> <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.aanda.org%2Farticles%2Faa%2Fabs%2F2018%2F08%2Faa33800-18%2Faa33800-18.html&postId=63005" rel="nofollow noreferrer noopener" target="_blank">Astronomy &amp; Astrophysics</a>

Изменения в галактиках, перешедших из космической среды низкой плотности в области с высокой плотностью. Визуализация стала возможной благодаря обобщённому моделированию

Astronomy & Astrophysics

Вот как сам Шавински объясняет разницу между обычным и обобщённым моделированием.

Обычное моделирование. Кажется, я знаю, какими физическими законами это можно объяснить. Знаю, как образуются звёзды, как ведёт себя тёмная материя и прочее. Я загружу все свои теории в одну базу и запущу программу моделирования. А затем спрошу себя, похоже ли это на правду.

Обобщённое моделирование. В некотором смысле оно противоположно обычному. Мы ничего не знаем; ничего не хотим допускать. Мы хотим, чтобы данные сами сказали нам, в чём дело.

Фок объясняет, что применение обобщённого моделирования не приведёт к исчезновению учёных. Однако к искусственным системам следует относиться не просто как к инструментам обработки данных, а как к инструментам, которые автоматизируют научную деятельность.

В начале материала Фок упомянул, что некоторые учёные не считают обобщённое моделирование новым словом в науке. В их числе Дэвид Хогг, специалист по космологии Нью-Йоркского университета и института Flatiron. Его труды, как и труды Шавински, существенно опираются на искусственный интеллект.

Хогг использовал нейросети для классификации звёзд по спектрам и присвоения физических свойств тем или иным звёздам на основе моделей обработки данных. Но в отличие от Шавински, Хогг считает, что обобщённое моделирование — всего лишь сложный и прогрессивный метод наблюдения и анализа, который астрономы применяли на протяжении веков, так что его едва ли можно назвать новым.

«Я думаю, что мы как сообщество начинаем использовать данные более технологично. Но мои труды всё ещё основаны на простых наблюдениях», — считает Хогг.

Трудолюбивые помощники

Далее автор материала обращает внимание на то, что ИИ и нейросети стали незаменимы в астрономических и физических исследованиях.

Например, команда астроинформатиков в Гейдельбергском институте теоретических исследований во главе с физиком Каем Полстерером воспользовалась алгоритмом машинного обучения для извлечения информации о красном смещении из данных о галактиках. Прежде это задание было изнуряюще трудным.

Основное преимущество систем искусственного интеллекта, по мнению Полстерера, это их способность работать на протяжении многих часов подряд без скуки и жалоб на условия труда. Это позволяет перепоручить скучную работу им, а самому сосредоточиться на интересной науке.

Творчество заключается в ненависти к скуке. А я не думаю, что компьютер может заскучать.

Кай Полстерер

Но человек всё равно должен контролировать искусственный интеллект, предупреждает Полстерер. ИИ не различает типы входных данных, поэтому если его натренировать оценивать красное смещение и возраст галактики, а потом загрузить селфи, он не сможет оценить это изображение. Полстерер утверждает, что человек отвечает за интерпретацию данных.

Астрофизик Брайан Норд предупреждает, что нейросети должны предоставлять не только результат, но и погрешность, как и любое другое научное исследование.

Также Норд выражает беспокойство по поводу нейросетей, которое разделяют многие исследователи ИИ: они предоставляют только ответ, без объяснения того, как именно он был получен.

Но, как замечает автор материала Дэн Фок, не все учёные думают, что это так уж важно. Ленка Здеборова, исследовательница во французском Институте теоретической физики комиссариата по атомной и альтернативным видам энергии, сравнивает невозможность понять логику ИИ с логикой человека. Например, когда человек видит фотографию кошки, он знает, что это кошка, но не может точно объяснить, почему именно он это знает.

Фок продолжает рассказывать о том, как другие области науки используют ИИ и нейросети.

Он приводит в пример историю Роджера Мелко, квантового физика, который использовал нейросеть для решения одной из труднейших проблем в его сфере деятельности: как математически представить «волновую функцию», описывающую многочастичные системы. Мелко говорит, что было необходимо использовать ИИ из-за «прогрессирующего проклятия размерности».

Это «проклятие» напоминает игру в шахматы. Как и в шахматах, с каждым ходом количество возможных следующих и ответных ходов противника увеличивается, возможные формы волновой функции растут в геометрической прогрессии с увеличением количества частиц в описываемой ей системе.

А искусственный интеллект уже давно стал экспертом в шахматах, поэтому подходит для решения похожих проблем в квантовой физике.

Машинный мозг

Несмотря на все споры, искусственный интеллект увеличивает скорость научных открытий, считает журналист Фок. Он также задаётся вопросом, как далеко зайдёт революция ИИ.

Бывают и странные открытия. Например, исследователи сделали ИИ, который обнаружил, какие гены в пекарских дрожжах отвечают за производство определённых аминокислот. Для этого он исследовал штаммы дрожжей с определёнными генами и без. В Wired статья про это исследование вышла под заголовком «Робот самостоятельно совершает научное открытие».

В качестве примера ИИ, ускоряющего научные исследования, Фок приводит случай химика Ли Кронина. Он использовал робота, который случайным образом смешивал химические вещества, чтобы попробовать получить новое соединение. Со временем система научилась заранее определять наиболее реакционноспособные соединения. Кронин считает, что такие роботизированные системы могут на 90% ускорить работу химиков.

Ещё один случай — нейросеть, которая выводит законы физики с помощью данных. Она заново открыла гелиоцентрическую модель Солнечной системы, изучив данные о положении Солнца и Марса в небе относительно Земли; она также ещё раз открыла закон сохранения импульса, наблюдая за сталкивающимися друг с другом шарами.

Так как законы физики могут быть выражены несколькими способами, исследователям интересно узнать, существуют ли новые, более простые способы объяснения уже обнаруженных законов и сможет ли система их открыть.

Несмотря на эти случаи, остаётся открытым вопрос о том, сколько информации можно получить на основе одних только данных.

В книге «Книга Причин» (“The Book of Why”, 2018) учёный-информатик Джуда Перл и популяризатор науки Дана Маккензи утверждают, что использование данных для ответов на вопросы о причинно-следственных связях — бесполезно.

Они считают, что всё, что может любое исследование, основанное на несмоделированном анализе данных, — это обобщить и преобразовать, но никак не истолковать данные. Шавински в ответ на это возражает, что учёные не могут при помощи ИИ выяснить причины и следствия, но сейчас с использованием данных они могут достичь гораздо большего, чем раньше.

Автор приводит ещё один аргумент: наука требует творческого подхода, и мы не знаем, как загрузить его в машину. Полстерер утверждает, что творческое мышление связано со скукой, а программы не умеют скучать, хотя многие называют такие программы, как Deep Blue и AlphaGo, «креативными». Мы не можем разобраться с «мозгом» машины, потому что не изучили собственные мысленные процессы, считает Фок.

Шавински, который недавно оставил научное сообщество и основал стартап Modulos, развивает ИИ и машинное обучение с помощью команды учёных из Высшей технической школы. Философия компании гласит, что машины готовы брать на себя всё больше и больше работы, сейчас выполняемой человеком.

Можно ли в обозримом будущем построить машину, которая с помощью биотехнологий сможет открывать законы физики или математики, недоступные пониманию умнейших людей? Будет ли будущее науки обязательно зависеть от машин, работающих на таком уровне, которого мы никогда не сможем достичь?

Кевин Шавински

И хотя учёный считает этот вопрос интересным, ответа не него он не имеет.

77
2 комментария

на фото с лицами у ИИ поставлены в настройках преобладание черного над белым)

Ответить

Что затруднительного в обнаружение несоответствия человеком? Посмотрите на картинку внимательно (я про картинку к этой статье) и будет понятно что это "Фотошоп".

Ответить