Почему математикам и дата сайентистам стоит пойти в медицину

В каких направлениях медицины и генетики цифру применяют чаще всего — обсуждаем в новом выпуске подкаста Data Therapy

Почему математикам и дата сайентистам стоит пойти в медицину

Искусственный интеллект в медицине и генетике последние 15 лет применяют всё активнее. Нейросети уже умеют предсказывать третичную структуру белков и определять по фото человека наследственные генетические заболевания. Когда начали использовать цифру в медицинской практике, где её применяют уже широко, с какими проблемами сталкиваются специалисты и почему математикам и айтишникам стоит пойти в медицину – это и не только обсудили в первом выпуске нового сезона подкаста Х5 Tech Data Therapy.

Наши гости – Владимир Кох, исполнительный директор по исследованию данных Сбера и Ольга Кардымон, научный сотрудник, руководитель группы «Биоинформатика», ведущий подкаста — Дмитрий Прусов, директор департамента монетизации данных Х5 Tech. Полную версию слушайте в Apple и Яндекс, а здесь делимся интересными моментами разговора.

Дмитрий Прусов: Тема искусственного интеллекта интересная и давно у всех на слуху – он применяется почти во всех сферах промышленности, экономики и бизнеса, а, начиная примерно с 2005 года, и в медицине, причём, очень активно. О чём говорит такой рост?

Владимир Кох: Первое – медицина в целом стала более оцифрована: сейчас повсеместно внедрены различные автоматизированные системы, электронные медицинские карты, которые хранят данные о ходе лечения, о симптоматике пациента. Соответственно, накопился массив информации, который можно обрабатывать. Второе – это использование современных вычислительных и алгоритмических методов, которые позволяют этот массив данных обрабатывать.

Также большой бум был в сфере исследований, объём публикаций растёт от года к году. Но, если смотреть на количество решений, которые получают FDA, – удостоверения или аналоги европейские, российские, они тоже растут. Но, конечно, порядок этих регистрационных удостоверений сильно отличается. Поэтому, я думаю, что именно бум внедрения будет чуть позже. Сначала наука, а потом практика.

Ольга Кардымон: Могу добавить относительно генетических данных. Понятно, что революция в генетике произошла с применением новых мощных машин для секвенирования полного генома. Это не так давно случилось, и за последние 10 лет мы огромными темпами накапливали информацию о геномах жителей разных стран, геномах разных организмов, геномах всего на свете, что только можно было. И поэтому, накопив эту информацию до нужного объема, чтобы можно было использовать методы машинного обучения, начинают появляться инструменты для её анализа.

Дмитрий Прусов: Насколько я понимаю, это естественное развитие двух составляющих для применения искусственного интеллекта. Во-первых, стало больше оцифрованных данных. Интересно, кстати, оцифруют ли когда-нибудь старые медкарты и рецепты, и мы тогда наконец-то разберём, что же там пишут врачи))) И второе – это развитие технологической базы, которая позволяет всё быстро обрабатывать, и иметь доступ к этой информации. Можете поделиться, когда в целом встал вопрос о применении искусственного интеллекта в медицине?

Владимир Кох: Классические методы экспертной системы начали применять ещё в прошлом веке. Тогда же пророчили, что в ближайшее десятилетие, в 60-е, 70-е, врачей или какую-то часть медицины эти алгоритмы заменят. Но не сбылось, сейчас исследователи более аккуратны в своих прогнозах. Поэтому говорить о какой-то революции сложно. Хотя искусственный интеллект активно и повсеместно используется во всём, что связано с помощниками в анализе медицинских изображений.

Это не вместо врача, а ему в помощь в рутинной работе. Например, рентгенолог с утра до вечера смотрит на картинки, взгляд притупляется, его отвлекают и так далее. А ему нужно какие-то простые для профессионала вещи на этом изображении увидеть. Конечно, здесь подобные алгоритмы очень эффективны. Нейросети делают это местами даже лучше, чем человек. В этой сфере больше всего продуктов, дошедших до реального использования.

Ольга Кардымон: В генетике есть классная история, когда по внешнему виду пациента можно установить наличие или отсутствие редкого наследственного заболевания. Научно это называется описание фенотипа пациента.

Врач-генетик с этого и начинает приём – к нему приводят ребёнка с заболеванием, специалист смотрит на него и говорит, что у него, например, расширенная переносица, поднятые вверх глаза, смещенные уши вниз и так далее. Но на самом деле описательная генетика не очень точная. Математики скажут: «Ну что это – выше, ниже, шире, о чём вы говорите?» А для врачей это важно, потому что ровно по этим признакам они и предполагают, какой дальше проверять ген или группу генов, и какое конкретно заболевание искать.

И вот лет 5 назад компания Face to сделала приложение, которое по изображению пациента даёт проценты риска того или иного заболевания. Конечно же, работая в лаборатории, мы это приложение сразу скачали и друг друга начали фотографировать. Абсолютно здоровые специалисты, дипломированные, явно без проблем с умственной деятельностью, внешне обычные люди. У меня тогда, в 2015 или 2016-м году данное приложение показало высокий риск синдрома Дауна. Понятно, что оно ошиблось. Я посмеялась, поняла, что скорее всего это связано с большими глазами, и приложение на тот момент было обучено не на достаточном количестве фотографий. А сегодня эту технологию реально используют врачи в своей практике, потому что за 7 лет приложение опробовали на разных пациентах, обучили модель. Врачи ориентируются на него как на второе мнение специалиста.

Дмитрий Прусов: Можете назвать еще несколько ключевых примеров, где это уже прямо максимально продвинуто, используется фактически на ежедневной основе?

Владимир Кох: Рентген, мы выше уже говорили об этом. Также маммография, исследования, используемые при скрининге рака молочной железы, компьютерная томография. В общем, чем сложнее вид исследования и тип оборудования, тем сложнее оно с точки зрения обработки. И тем больше вариантов этого оборудования. Технологически многое решено уже на текущий момент, но не все реализовано в продукте. Есть большой потенциал.

Если рассматривать медицину как некое предприятие, которое работает по вполне понятным правилам, то здесь используются следующие методы – настройка маршрутизации пациентов, оптимизация этого расписания, то есть большое количество организационных процессов. Там эти системы внедряются, сервисы, и они оптимизируют какие-то вещи. Про это тоже нужно помнить.

Ольга Кардымон: Добавлю чуть-чуть – «а вот у меня в генетике», что называется. Чтобы узнать, есть ли у человека мутация, вызывающая заболевание, нужно провести большой объём работы – специалисты в лабораториях выделяют ДНК, секвенируют, то есть прочитывают его последовательность. Дальше В-информатик накладывает всё это на золотой стандарт генома здорового человека, смотрит отличие каждой мутации, и определяет, является ли мутация патогенной или же она доброкачественная. Потому что не каждая мутация в нашем организме обязательно приведёт к какому-то негативному эффекту – 99,9% абсолютно доброкачественные.

Чтобы определить патогенность мутации, приходится читать очень много литературы, отслеживать последние публикации, обращаться к большому количеству баз данных – раньше срок выполнения такого анализа был до 60 дней. Сегодня искусственный интеллект помогает сделать эту процедуру короче. Есть статьи, где пишут, что использовали архитектуру на основе трансформера. Модель, которая способна из статей вытаскивать информацию про нужный ген, отличать его. Она говорит – посмотри, в этом материале написано конкретно про эту мутацию, я для тебя уже всё нашла. Тебе не нужно ни гуглить, ни читать текст полностью. Это экономит кучу времени! Конечно, такие параноики, как я, всё равно сидят и проверяют дальше руками. Но, тем не менее, прецедент создан.

Ещё крутая вещь, которую сейчас начинают применять на практике, но это пока поймут только биотехнологи, – инструмент под названием АльфаФолд от компании Deep Mind. Он предсказывает третичную структуру белков. Узнать её до конца 2020 года было очень трудно, потому что она определяется методом рентген-структурного анализа, у которого есть этап кристаллографии. Это дорого, сложно, не все умеют это делать, не каждая лаборатория себе в состоянии вообще это позволить, поэтому у нас не очень много трехмерных структур белка на сегодняшний день занесено в базы данных. А вот АльфаФолд умеет. Такие инструменты помогают биологам, биотехнологам, иммунологам сконцентрироваться на своих задачах, сварить дальше этот белок и отправить его в вакцину.

Дмитрий Прусов: Давайте поговорим про трудности, с которыми сталкиваются профессионалы в области использования искусственного интеллекта, будь то в медицине, будь то в генетике. Какова основная проблематика?

Владимир Кох: Про проблемы мы не любим говорить, но попробуем. Смотрите, глобально все неплохо, но есть определенные нюансы. Если говорить про русскоязычный домен, особенно то, что касается анализа медицинских текстов различных, то, конечно, у нас есть дефицит открытых данных. Что ещё? Отдельно, наверное, можно сказать про регуляторику, опять же про получение доступа и так далее, но этим занимаются активно. Про комьюнити могу сказать, что оно меньше, чем, например, европейское.

Дмитрий Прусов: Мы в одном из выпусков обсуждали технологии распределённых вычислений, блокчейн и все остальное. Мне кажется, это то направление, в которое имеет смысл инвестировать. Потому что именно применение таких технологий смогло бы объединить различные лаборатории со всего мира.

Ольга Кардымон: Абсолютно согласна. Уже есть те, кто пытается предлагать инвесторам проекты на эту тему. Это очень крутые ребята, с которыми я недавно познакомилась. Они как раз хотят объединять данные из разных лабораторий. И второй момент как раз про объединение лабораторий в сеть – брать результаты, интерпретировать на своих серверах, дообучать модели, чтобы они лучше показывали в одинаковых тестах воспроизводимость, и возвращать в те лаборатории, где это хранится.

Отдельный разговор про компетенции. Вот классная история. Если посадить математика и дата-сайнтиста работать над биологическими данными, то это, как правило, заканчивается комедийно. Математик тут же замечает, что онкологические клетки живут только при наличии глюкозы в крови. Первое, что он говорит: «Я знаю, как победить рак. Надо убрать глюкозу из крови». Вот, понимаете, что называется. Отчасти он прав, конечно. Если мы уберём глюкозу из крови, опухолевые клетки умрут, но и человек вместе с ними. Но решение абсолютно логичное с точки зрения математики, как ни посмотри.

Поэтому я знаю точно, если посадить только математика или только дата сайнтиста на биологическую задачу, то они не справятся. И в то же время поручите мне обучать – не смогу выполнить эту задачу эффективно. Поэтому нужно совмещать, работать со специалистами, у которых есть и биологический бекграунд, и математический. Меня радует, что с этого года такие программы в России начали появляться.

Полная версия нового выпуска подкаста Data Therapy здесь, подписывайтесь – каждую среду мы обсуждаем с коллегами и друзьями по рынку лучшие практики применения big data в бизнесе, как большие данные уже влияют на нашу жизнь и почему это совсем не страшно. В следующем выпуске поговорим о применении больших данных в онлайн и офлайн ритейле, digital пространстве, рекламе и коммуникациях с клиентами.

9
6 комментариев

Очевидно, что математики и датасатанисты много времени проводят за компом, поэтому им просто необходимо идти в медицину. Хотя бы раз в год на полный осмотр. А то сами знаете, вроде сидишь себе, никого не трогаешь, модельки строишь, и тут раз, плюс 10 килограмм, отдышка и специфические болезни. Так что айтишечки и математишечки - срочно на осмотр по ДМСочке!

11
Ответить

Первое, что он говорит: «Я знаю, как победить рак. Надо убрать глюкозу из крови». Вот, понимаете, что называется. Отчасти он прав, конечно. Если мы уберём глюкозу из крови, опухолевые клетки умрут, но и человек вместе с ними. Очень хороший пример и в частности и в целом ;) С него нужно было начинать, а дальше и писать особо не стоило :) а не пихать в самый конец.

4
Ответить

почему математикам, а не математишенам?

2
Ответить

Название статьи - это коротко о том, как я пытался определиться с факультетом

Ответить

кмк это история не для России - кто будет инвестировать в медицину и зачем?

Ответить

Может дело в том, что сию хрень я просто пробежал по диагонали ни на чем не останавливаясь, потому и не увидел единственной причины по которой кому-то стоит массово идти в какую-то область: неприлично больших зарплат.

Ответить