Подкаст: кто такие биоинформатики и что они изучают

В новый выпуск подкаста «Сушите вёсла» зашёл руководитель научной группы Института биоинформатики Юрий Барбитов. Обсудили профессию биоинформатика и всё вокруг неё: чем похожа на Data Science, почему полезна для человечества и как продвигает науку. Запись выпуска внутри статьи.

«Сушите вёсла» — подкаст про разработку, аналитику, тестирование и всё, что связано с созданием IT-продуктов. Его ведут разработчики red_mad_robot Артём Кулаков и Рома Чорыев. В эпизоде #16 обсудили, что происходит, когда информатика пересекается с биологией, и Юрий Барбитов попробовал объяснить нам простыми словами про геном, секвенирование и «мокрых биологов».

Ниже подкаст и ответы на несколько горячих вопросов про биоинформатику.

Тайминг

  • 1:50 — как попасть в биоинформатику;

  • 4:30 — что такое биоинформатика;
  • 10:20 — чем похожа на Data Science;

  • 17:02 — секвенатор и секвенирование;
  • 23:35 — как развивается биоинформатика и почему она важна;

  • 29:30 — риски в работе с данными и в лабораториях;
  • 35:17 — стоимость биоинформатических исследований;
  • 40:00 — про платформы Folding at Home, World Community Grid;

  • 50:25 — проблема с массивами данных в биоинформатике;
  • 55:15 — в каком состоянии находится биоинформатический софт;
  • 1:00:50 — где хранятся данные;
  • 1:05:09 — проблемы с хранилищами данных;

  • 1:15:00 — как обучиться на биоинформатика.

Что такое биоинформатика

Юрий считает, что у каждого специалиста своё представление о том, что это за область науки. Но герою выпуска ближе такое определение — биоинформатики придумывают, как обрабатывать большие массивы биологических данных, чтобы получить из них конкретные научные результаты.

Эта дисциплина немного похожа на эксперименты в биологии, когда учёный в лаборатории проводит опыты, занимается исследованиями и получает результаты. По словам Юрия, его коллеги называют это «мокрой биологией».

«Мокрый биолог» делает в лаборатории разные манипуляции с живыми клетками, потом куда-то их засевает, пересевает, смешивает растворы. Человек, который занимается биоинформатикой, — dry biologist («сухой биолог»). Он, как и все программисты, выполняет рутинные задачи — пишет программы, скрипты, а потом их запускает. Отличие в том, что работа биоинформатика похожа на работу дата-сайентиста. Нужно не только написать, как обработать входные данные, и получить из них что-то. Ещё надо придумать, как всё это дело применить и как интерпретировать полученные результаты.

Юрий Барбитов, руководитель научной группы Института биоинформатики

С какими данными работает биоинформатик

Впервые биоинформатику применили, когда люди начали заниматься геномом — это набор молекул ДНК с наследственной информацией. Геном есть у всех живых существ — от бактерий до людей. Если прочитать его и узнать всё про наследственную информацию, человечество научится исправлять наследственные ошибки, подбирать новые методы терапии и т.д.

Проблема в том, что наследственная информация очень большая — это очень длинный текст. Геном человека состоит из трёх миллиардов символов. Чтобы с ним правильно работать, его нужно для начала расшифровать.

Представьте, что у вас была пачка газет и её сначала взорвали, а потом нужно попытаться этот «пазл» составить обратно, собрать исходную газетную страницу из разорванных кусочков. Примерно так работает прочитывание генетических текстов.

Юрий Барбитов, руководитель научной группы Института биоинформатики

В основе расшифровки генома — метод секвенирования. Это прочитывание, восстановление последовательности. Биолог берёт длинную цепочку символов генома и «разрезает» на небольшие кусочки. Затем использует секвенаторы (молекулярно-биологические приборы) — они помогают реконструировать последовательность символов в каждом кусочке. Секвенатор выдаёт набор прочитанных последовательностей — они и станут исходными данными для биоинформатики.

Если совсем на мой рабоче-крестьянский уровень опуститься, секвенатор — это такой специальный биологический компьютер. Мы в него что-то капаем, а он нам на экране буковки показывает.

Артём Кулаков, архитектор специальных проектов red_mad_robot

Кто попадает в биоинформатику — биологи или айтишники

Это наука на стыке двух областей — биологии и информатики. Поэтому в неё приходят программисты и биологи. Наш гость пришёл со стороны биологии. Поступил в СПбГУ на биофак, работал на кафедре, специализировался на генетике. Параллельно слушал онлайн-курсы по программированию, а потом узнал про биоинформатику.

В какой-то момент коллеги сказали: «Раз тебе это так интересно, то лучше просто получить дополнительное образование по биоинформатике». Так я и попал в Институт биоинформатики.

Юрий Барбитов, руководитель научной группы Института биоинформатики

Почему недостаточно описательной биологии и где искать лекарство от рака

По словам Юрия, биоинформатика развивается очень активно, потому что для биологии и медицины уже недостаточно описательных исследований. Нужно проанализировать всё то, что человечество открыло за это время.

Практически всё, что можно было описать, уже описано. В последние 50 лет биология перешла на уровень, когда нужно не просто описать, как выглядит зверушка, где она обитает и что делает. Биология хочет знать, как это всё работает. Она пытается понять, как устроены живые организмы.

Чтобы сделать ядерный реактор или ядерную бомбу, нужно было для начала подвести всю теорию — узнать, как устроены атомы, что такое распад и т. д. То же самое нужно проделать, чтобы вылечить человека, например, от рака и от большого количества других болезней. Необходимо понять, как устроен мир вокруг нас, как работают живые организмы, какие «крутилки» нужно «крутить», чтобы получить требуемый результат.

Юрий Барбитов, руководитель научной группы Института биоинформатики

Исследования в биоинформатики — это дорого?

Необязательно. Прочитать геном одного человека стоит около тысячи долларов. Современные приборы позволяют читать геномы нескольких десятков человек. Но биоинформатика — это довольно хрупкая наука. Если «мокрый биолог» допустил ошибку в лаборатории или реагент изначально оказался некачественным, всё исследование нужно будет проводить заново. Из-за этого увеличится и бюджет, конечно же.

Многие исследования времязатратные. Ты долго-долго растил какую-то культуру раковых клеток и что-то с ними хотел сделать. А потом кто-нибудь пришел и не вытер ноги при входе в лабораторию или не надел халат правильно. Что-то попало в твою культуру, и всё сдохло.

Юрий Барбитов, руководитель научной группы Института биоинформатики

О проблемах в профессии

№1 — колоссальные объёмы данных. Один прочитанный геном человека — это 100 гигабайт данных. Представьте, что вам нужно секвенировать сотни геномов.

В Великобритании люди пытаются отсеквенировать геномы всех новорожденных в течение кучи лет. Понятно, что это уже миллионы отдельных образцов, миллионы прочитанных геномов. И каждый, соответственно, по 100 гигабайт сырых данных. Это начинает уходить в космос по части объёма информации.

Данных уже так много, а найти эффективный метод для проверки гипотезы очень сложно. Учёные работали по-разному, получили разные результаты — и вся эта информация лежит в разных местах. Ну и как итог — собрать её из разных работ от разных людей очень непросто. Это может быть очень затратно и по времени, и по финансам.

Юрий Барбитов, руководитель научной группы Института биоинформатики

№2 — биоинформатический софт. Некоторые часто используемые программы активно разрабатывают и улучшают, но они заточены под стандартные задачи.

С таким программами можно работать. Но если задача хотя бы чуть-чуть является нестандартной и люди пишут какие-то новые инструменты, разрабатывают новые алгоритмы для решения какой-то менее популярной задачи, получается софт в ужасном состоянии.

Например, вижу статью про «десять биоинформатических инструментов», которые помогают решить конкретную какую-то задачу. Наверное, восемь из десяти программ уже не работают. Потому что человек удалил свой репозиторий на GitHub или вообще залил софт на какой-то, прости господи, SourceForge, где он и погиб. Так что либо софта вообще нет, либо его невозможно скомпилировать без длительного и больного исправления всех багов, которые автор туда внёс.

Юрий Барбитов, руководитель научной группы Института биоинформатики

Как обучиться на биоинформатика и где искать работу

Юрий подробно рассказал, чему обучаться, чтобы попасть в биоинформатику. Послушайте, начиная с 1:15:00. Если вкратце — обучение недорогое, но долгое. Предложений на рынке мало, но на крутых спецов спрос всегда есть. Нужно самому искать проекты и задачи, предлагать помощь и обрастать контактами.

Если прямо фокусироваться на том, чтобы войти в область полноценно и с перспективой, обучение потребует больших временных инвестиций. Но это вполне может стать парт-тайм работой на 20 часов в неделю минимум.

Полезные материалы

Предыдущий выпуск подкаста «Сушите вёсла»

«Закон есть закон»: как жить в юридическом мире, если ты из айти.

Слушайте нас там, где удобно — SoundCloud, Apple, Google Podcasts, Яндекс.Музыка. Заходите обсудить выпуск в Telegram-чат.

33
Начать дискуссию