Как российские биоинформатики помогают врачам и пациентам анализировать геномы и при чем тут облака

В нашу ДНК зашита информация, способная перевернуть подход к здоровью каждого человека. Анализ генома показывает, к каким генетическим заболеваниям, включая онкологию, есть предрасположенность, какой способ лечения будет наиболее эффективным и даже какой образ жизни предпочтительно вести.

Как российские биоинформатики помогают врачам и пациентам анализировать геномы и при чем тут облака

Проекты в области биоинформатики удобнее развивать на облачной ИТ-инфраструктуре. Это позволяет максимально быстро получить готовые вычислительные мощности для работы с большим объемом медицинских и персональных данных. Рассказываю о том, как специалисты российской компании Novel Software Systems с помощью облачных технологий помогают врачам, ученым и простым пользователям извлекать полезные знания об особенностях здоровья из геномных данных.

Геном — это код, в котором зашифрована программа развития человека. Он определяет его рост, телосложение, цвет волос и глаз. А еще — какие болезни могут развиться в течение жизни.

Анализ генома позволяет выявить вероятность развития многих видов рака, сахарного диабета, ишемической болезни сердца, гипертонии, инсультов, болезней Альцгеймера и Паркинсона, шизофрении, аутизма, биполярного расстройства и тысяч других генетически обоснованных заболеваний. На возможность их возникновения указывают мутации («поломки») в определенных генах.

Для чего нужна эта информация?

Во-первых, чтобы постараться избежать развития генетических заболеваний. Многие из них многофакторные. Чтобы запустилась болезнь, должны сложится в единую картину несколько, в том числе внешних, условий: климат, образ жизни, особенности питания, стрессы. Узнав о предрасположенности, можно исключить факторы риска и проходить профилактические осмотры для ранней диагностики.

Во-вторых, если заболевание уже выявлено, анализ геномных данных поможет подобрать наиболее эффективное лечение. Наука еще далека от того, чтобы «починить» ген, но уже есть знание о том, какие способы лечения показывают лучшие результаты при выявленных мутациях. Это касается некоторых аутоиммунных, онкологических, сердечно-сосудистых, нейродегенеративных заболеваний. Кроме этого, исследование генома может выявить маркеры, ответственные за развитие патологии.

В-третьих, интерпретация генетических данных помогает родителям с наследственными заболеваниями родить здорового ребенка — выбрать эмбрион без соответствующих мутаций или провести генетическое обследование плода.

Идут исследования, которые выявляют связь генетических мутаций с талантами. Есть предположения, что абсолютный слух, выдающиеся интеллектуальные способности или спортивные задатки заложены генетически. Но пока это самая малоизученная область генетики.

Казалось бы, найдена «волшебная таблетка», позволяющая людям управлять здоровьем и жизнью. Но не все так просто.

В чем сложность?

Сегодня расшифровку своего ДНК можно заказать во многих диагностических лабораториях. Результат представляет собой код — длинную последовательность латинских букв «весом» в десятки и сотни гигабайт. Чтобы извлечь из них пользу, результат нужно интерпретировать. Это самое сложное.

Первый геном оцифрован 20 лет назад, но до сих пор специалисты не научились использовать всю заложенную в этих данных ценность. Например, если расшифровать геномы 100 человек, только 10 из них получат важную информацию о своем здоровье. Об остальных 90 участниках наука еще не может ничего сообщить. Исследования о связи различных вариаций и мутаций генома с болезнями и другими особенностями человека идут очень медленно.

Расшифровка первого генома стоила 3 млрд долларов, сегодня она стоит в пределах 1 тыс. долларов. Количество расшифрованных ДНК растет в геометрической прогрессии — лет через 20–30, скорее всего, будут оцифрованы все геномы. Но технологии, позволяющие интерпретировать их, сильно отстают.

Обработка геномных данных — это трудоемкий и дорогой процесс, требующий компетенций в биоинформатике. Таких специалистов, которые одинаково хорошо разбираются в биологии и ИТ, очень мало. Поэтому до сих пор знания о геноме человека ограниченно используются в прикладной медицине и фармацевтике.

Мы в Novel Software Systems пытаемся переломить ситуацию. Мы создаем технологии, позволяющие упростить интерпретацию генома для врачей, ученых и простых людей. Стремимся ускорить то светлое будущее, когда люди научатся извлекать всю полезную информацию, заложенную в ДНК, и использовать ее себе во благо.

Компания выросла из стартапа в области биоинформатики, созданного в 2004 году студентами в новосибирском Академгородке. Специализируется на глубокой аналитике биомедицинских данных и разработке программных продуктов с применением технологий машинного обучения. Развиваем собственную платформу для обработки геномных данных Genomenal и энциклопедию «Генокарта». Итак, расскажу, как мы делаем анализ генома проще.

Энциклопедия, которая превращается в платформу

Генетическая энциклопедия «Генокарта» — это уникальный русскоязычный профессиональный ресурс о генах и связи мутаций с наследственными заболеваниями. Ее идея проста: собрать российскую базу знаний о геноме человека. Для врачей-генетиков, которым сложно удержать в голове информацию о шести тысячах наследственных заболеваний и нужно следить за научными открытиями в своей сфере. Для врачей других специальностей, которые сталкиваются с генетическими заболеваниями. Для широкого круга пользователей, которые ищут сведения о своей болезни в интернете — на «Генокарте» собраны статьи проверенных экспертов, и им можно доверять. Практическая функция энциклопедии — свести человека, который пытается найти информацию о своем заболевании, с экспертами, которые смогут квалифицированно ему помочь.

Сейчас в генетической энциклопедии размещено более тысячи оригинальных (непереводных) статей о заболеваниях и генах. Кроме этого, сгенерировано около 14 млн страниц о мутациях и геномных вариантах. Существуют известные и широко используемые зарубежные базы данных о связи мутаций с болезнями. Русскоязычных баз такого масштаба нет. Мы написали специальную программу, которая автоматически собирает информацию из англоязычных источников (ClinVar, OMIM, dbSNP, SNPedia, GWAS catalog) и на основе этой информации генерирует страницы на русском языке о связи мутаций с заболеваниями.

Генетическая энциклопедия — это сайт, который не хранит данные, поэтому не занимает много места. Но он должен быть размещен на ИТ-инфраструктуре, соответствующей закону о работе с персональными (152-ФЗ) и медицинскими данными (149-ФЗ). Дело в том, что на ресурсе тестируется сервис по обработке геномных данных для широкого круга пользователей: со временем каждый сможет загрузить расшифровку ДНК и получить ее интерпретацию. Покупать и обслуживать свои серверы с соответствующим обеспечением безопасности данных для небольшой инновационной компании дорого и неудобно. Кроме этого, при развертывании собственной инфраструктуры на каждого профильного специалиста — биоинформатика, инженера-программиста, биолога, математика — пришлось бы нанимать по ИТ-специалисту для обслуживания «железа» и программ. Фокус команды неизбежно бы размылся. Поэтому мы разместили «Генокарту» в облаке Mail.ru Cloud Solutions. Это позволило нам не только получить необходимые ресурсы для текущего проекта без расширения штата и больших расходов, но и планировать его развитие.

В перспективе «Генокарта» станет b2c-сервисом — инструментом для анализа генома для врачей, ученых, исследователей, пациентов. Всех, кто сталкивается с наследственными заболеваниями в жизни или рабочей практике. Любой человек сможет получить интерпретацию — узнать, о чем свидетельствуют те или иные мутации ДНК. Добавить такую возможность планируем к концу 2021 года.

Сервис для автоматической обработки геномных данных

На базе собственной платформы Genomenal мы разработали сервис NGS Wizard — ключевой b2b-продукт компании. Он автоматизирует обработку геномных данных. Основное его отличие от аналогов в том, что им можно пользоваться без специальных знаний в биоинформатике: загрузил данные и получил интерпретацию.

Человеческий фактор может стать причиной ошибки, когда специалисту приходится вручную проверять 50 файлов по 1000 мутаций в каждом. Программа ничего не пропустит и найдет верную интерпретацию, сверяясь с последними базами знаний. Сервис экономит время специалистов и поможет, если в штате вовсе нет биоинформатиков.

Для стартапа, работающего с медицинскими и другими персональными данными, проще и быстрее развернуть инфраструктуру для такого сервиса в облаке. NGS Wizard — «тяжелый» сервис, требующий больших вычислительных ресурсов. Благодаря облаку Mail.ru Cloud Solutions удалось быстро получить мощности, соответствующие 152-ФЗ, и запустить пилотный проект в 2019 году. Для тестирования сервиса использовались пять виртуальных машин, виртуальные сети, база данных PostgreSQL как сервис, файловое хранилище NFS и объектное хранилище S3 для резервирования данных. Пилотный проект подтвердил работоспособность сервиса и позволил запустить его продажи.

Платформой Genomenal и сервисом NGS Wizard пользуются научные и медицинские центры в России и за границей. Проекты развиваются. Сейчас реализованы модули: для интерпретации при редких наследственных заболеваниях, глиомный модуль для интерпретации мутаций в опухоли мозга — прогнозирования агрессивности заболевания и подбора терапии, модуль для пренатального генетического тестирования — определения генетических поломок у эмбрионов при ЭКО. В активной разработке: модуль диагностики наследственных опухолевых синдромов, модуль анализа опухолевых образцов для ряда видов опухоли, модуль анализа эндокринологических заболеваний, модуль оценки рисков распространенных полигенных заболеваний, метагеномный модуль (для анализа образцов бактерий и вирусов).

Мы связываем свое будущее с растущим запросом на персонализированную медицину и расширением применения геномных данных в разных областях. Находясь на острие развития новых технологий, мы сосредоточены на профильных исследованиях и разработках, наращивании экспертности в своей области. Команда не распыляется на другие, побочные задачи вроде поддержания инфраструктуры для своих проектов. Ресурсы, необходимые для создания инноваций, быстрого тестирования гипотез и запуска MVP, компания черпает в облаках.

Что еще почитать:

33
Начать дискуссию