AlphaFold: нейросеть нобелевского уровня

Ill. Niklas Elmehed © Nobel Prize Outreach
Ill. Niklas Elmehed © Nobel Prize Outreach

Нобелевская премия по химии 2024 года, как и премия по физике, оказалась присуждена за работы, связанные с компьютерными технологиями и искусственным интеллектом. Половину награды заберет американец Дэвид Бейкер, разработавший Rosetta — программу, которая позволяет создавать новые белки. Вторая половина премии достанется британцам Джону Джамперу и Демису Хассабису из компании Google DeepMind за разработку ИИ-метода предсказания трехмерной структуры белков. Созданная ими нейросеть называется AlphaFold. В 2020 году вторая версия программы совершила революцию в химии, так как смогла предсказать структуру белков с небывалой точностью. Рассказываем, как нобелевские лауреаты создавали AlphaFold, чего уже достигла программа и какие ее минусы обнаружили ученые.

Проблема длиной в 50 лет

Белки — одни из главных макромолекул всех живых организмов после нуклеиновых кислот. При этом они, вероятно, самые разнообразные из всех. Белки представляют собой цепочки из аминокислот. В природе существует 20 аминокислот. Число их возможных комбинаций, то есть самих белков, практически бесконечно.

Важная особенность белков заключается в том, что у них есть несколько уровней организации. Первичная структура — это аминокислотная последовательность, то есть простая цепочка аминокислот. Вторичная — так называемая альфа-спираль, в которую сворачивается эта цепочка. Она образуется за счет водородных связей между каждой пятой аминокислотой в цепочке. Далее вторичная структура может складываться в третичную за счет ковалентных, водородных, ионных связей и других взаимодействий. Этот этап и определяет пространственную ориентацию белка. Несколько третичных структур могут «склеиваться» вместе и образовывать более крупные комплексы — четвертичные структуры. Именно четвертичная структура и определяет функцию и эффективность белка. Этот процесс ученые называют фолдингом белка. Неправильное сворачивание белка на любом из этапов может привести к смертельно опасным болезням.

Фолдинг белка / Wikimedia Commons
Фолдинг белка / Wikimedia Commons

«Проблема фолдинга белка» была сформулирована в 1972 году лауреатом нобелевской премии Кристианом Анфинсеном. Она заключается в том, что ученым нужно предсказать третичную или четвертичную структуру белка по его изначальной аминокислотной последовательности. С 1994 года раз в два года проводится масштабный эксперимент Critical Assessment of protein Structure Prediction — CASP, в котором разные алгоритмы пытаются предсказать структуры белка по их последовательности. Именно на этом конкурсе впервые прославилась нейросеть AlphaFold.

Хорош, но недостаточно

Демис Хассабис, один из лауреатов Нобелевской премии по химии 2024 года, начал играть в шахматы в возрасте четырех лет. Он тренировался играть с программой на ZX Spectrum. В 13 лет Хассабис уже достиг уровня мастера. В подростковом возрасте он начал карьеру программиста и успешного разработчика игр. Позднее он начал изучать искусственный интеллект и занимался нейробиологией. Хассабис подготовил несколько статей, посвященных эпизодической памяти и амнезии, которые были опубликованы в ведущих мировых научных журналах в Nature Neuroscience, Neuron, PNAS и Science. Хассабис использовал то, что узнал о мозге, для разработки более совершенных нейронных сетей для искусственного интеллекта. В 2010 году он стал соучредителем компании DeepMind, которая начала разрабатывать модели искусственного интеллекта для популярных настольных игр.

Компания была продана Google в 2014 году. Два года спустя DeepMind привлекла всеобщее внимание, когда их программа AlphaGo победила чемпиона-человека в одной из старейших настольных игр мира, го. Потренировавшись на этой игре, специалисты DeepMind нацелились на более сложную вершину — упомянутый ранее конкурс CASP.

К этому моменту конкурс существовал уже более 20 лет. Ни одна из программ, предлагаемых учеными ранее, не могла предсказывать структуры белков с точностью выше 40%. Поэтому победу первой версии AlphaFold в 2018 году можно назвать оглушительной — ее точность достигла почти 60%. Это был хороший результат, равных которому прежде не было. Однако такой точности все еще было недостаточно. Чтобы ученые действительно могли использовать нейросеть в работе, ее точность должна была превысить 90%.

Вторая попытка

Джон Джампер, еще один лауреат Нобелевской премии 2024 года по химии, по образованию не был ни программистом, ни химиком, ни биологом. Его диссертация, защищенная в 2011 году, была посвящена теоретической физике. Однако еще в 2008 году он пришел работать в компанию, которая занималась использованием суперкомпьютеров для расчета структуры белка. Когда он услышал, что в область фолдинга белка пришла DeepMind, он отправил свое резюме в компанию Демиса Хассабиса.

Джампер сыграл ключевую роль в разработке новой версии программы, AlphaFold2. Его знания о белках и расчете их структур помогли значительно повысить точность модели. Кроме того, команда разработчиков начала использовать новую архитектуру нейронных сетей — трансформеры. Такие сети могут находить закономерности в огромных объемах данных более гибким способом, чем раньше, и эффективно определять, на чем следует сосредоточиться для достижения конкретной цели

Разработчики обучили AlphaFold2 работе с обширной информацией из баз данных обо всех известных структурах белков и аминокислотных последовательностях. Новая модель интеллекта начала показывать хорошие результаты как раз к четырнадцатому конкурсу CASP, который прошел в 2020 году.

В этот раз успех AlphaFold2 на конкурсе был абсолютным. Пятидесятилетняя задача биохимии — проблема фолдинга белка — была решена. В большинстве случаев AlphaFold2 работал почти так же хорошо, как анализ структуры белка ученым с помощью рентгеновской кристаллографии (самого распространенного метода определения структуры вещества).

«AlphaFold — это достижение, которое появляется раз в поколение. Она предсказывает структуры белков с невероятной скоростью и точностью. Этот скачок вперед демонстрирует, как вычислительные методы готовы трансформировать исследования в области биологии и обещают ускорить процесс открытия лекарств», — комментировал Артур Д. Левинсон, основатель и генеральный директор Calico, бывший председатель и генеральный директор Genentech.

Две стадии, чтобы предсказать все белки

AlphaFold2 работает в два этапа. На первом из них нейросеть анализирует белки, ищет похожие участки у других белков в базе данных и находит пары аминокислот, которые могут сближаться во время фолдинга. Затем алгоритм предсказывает, на каком расстоянии друг от друга будут эти пары, когда белок начнет сворачиваться. Полученные предположения искусственный интеллект сравнивает с реальными данными по другим белкам. Так он проверяет точность своего прогноза и предсказывает возможные углы соединений аминокислот.

Однако некоторые предсказанные углы и расстояния могут быть физически невозможны. Так начинается второй этап работы нейросети. Она предлагает практически случайную, но «жизнеспособную» по всем физическим законам версию этого белка. Затем алгоритм оптимизирует предложенную версию и «подгоняет» ее под предсказания, получившиеся по итогам первого этапа.

Революция началась

Когда Демис Хассабис и Джон Джампер подтвердили, что AlphaFold2 действительно работает, они вычислили структуру всех человеческих белков. Затем они предсказали структуру практически всех 200 миллионов белков, которые исследователи к настоящему времени обнаружили при составлении карт организмов Земли.

Google DeepMind также сделал общедоступным код AlphaFold2, и к нему может получить доступ любой желающий. Модель искусственного интеллекта стала золотой жилой для исследователей. К октябрю 2024 года AlphaFold2 использовали более двух миллионов человек из 190 стран. Сейчас уже есть версия AlphaFold3, которая «замахнулась» и на белково-нуклеиновые комплексы, и на комплексы белков с ионами.

С помощью программы ученые могут находить новые лекарства от болезней. Например, российские ученые с помощью AlphaFold смогли предсказать полную 3D-модель тканевой трансглутаминазы (tTG) в открытой конформации. Это фермент, который участвует в развитии множества заболеваний, в том числе целиакии (непереносимости глиадина или глютена). Полученные с помощью нейросети данные помогли ученым создать библиотеку новых потенциальных ингибиторов фермента, которые можно будет использовать для борьбы с заболеванием.

«Предыдущие структуры tTG были разрешены лишь частично (то есть содержали “пустоты”, в том числе в активном сайте фермента), что не позволяло корректно применять методы компьютерного моделирования. Наша структура — это первая полная модель tTG, которая содержит дополнительную петлю, оказывающую влияние на эффективность связывания лигандов», — рассказывал Сергей Иващенко, инженер лаборатории молекулярной и клеточной биологии и оптогенетики МФТИ.

Велик, но не идеален?

Тем не менее нельзя сказать, что AlphaFold стал абсолютным и безусловным решением всех проблем. В августе 2024 года вышла работа, авторы которой сумели найти фундаментальные ограничения в алгоритме и пролить на свет на то, как он работает. Группа Лорен Портер из США показала, что предсказательные возможности алгоритма (как второй, так и третьей версии) в области тех белков, которые могут переключаться между несколькими третичными структурами, внезапно оказались весьма низкими. Это позволило немного заглянуть в «черный ящик» AlphaFold. «Полученные нами данные указывают на то, что речь идет о запоминании структур [на которых натренирован алгоритм], а не о том, как аминокислоты совместно эволюционируют в родственных белках, как, по предположению ученых, происходит при использовании некоторых методов. Если мы хотим эффективно использовать [AlphaFold], нам нужно понять, что лежит в основе этих прогнозов», — рассказала член команды Девлина Чакраварти.

Возможно, в этой же плоскости лежит еще одна «дырка» в алгоритме, обнаруженная российскими школьниками вместе с учеными Сколтеха. «Мы решили проверить, предскажет ли AlphaFold изменения в стабильности белка вследствие появления одиночной мутации. То есть вы берете некоторый известный белок, вносите в него минимально возможное изменение и хотите знать, полученный мутант будет стабильнее или нестабильнее и насколько. С этой задачей AlphaFold не справился: предсказания никак не согласуются с известными экспериментальными данными», — объяснил старший преподаватель Сколтеха Дмитрий Иванков.

«Нобелевская премия по химии и премия по физике вручаются одной и той же организацией — Шведской королевской академией наук. И в 2024 году, судя по всему, оба нобелевских комитета решили действовать сообща и присудить премии за работы, связанные с искусственным интеллектом. И если премия по физике оказалась очень далека от классической физики, то премия по химии, пожалуй, вызвала меньше споров в научном сообществе. По крайней мере, вопрос «при чем тут химия» не возникает. В любом случае, работы нобелевских лауреатов очень ценны, обладают огромным потенциалом и полностью соответствуют завещанию Альфреда Нобеля. Возможно, Нобелевскому комитету не стоило поддаваться ИИ-ажиотажу и подождать с премией Джамперу и Хассабису до момента, когда цикл хайпа Gartner в области ИИ-технологий в химии уйдет с пика завышенных ожиданий, пройдет этап разочарования и выйдет на плато продуктивности. Но в Стокгольме решили иначе», — прокомментировал Алексей Паевский, член правления Российского химического общества имени Д. И. Менделеева, автор книги «Нобелиаты. Формулы успеха. 1901–1910».

Следите за событиями в сфере ИИ на национальном портале в сфере ИИ – ai.gov.ru.

22
Начать дискуссию