Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Ученые совместно с Yandex Cloud разработали систему на базе искусственного интеллекта, которая отслеживает распространение растений. Рассказываем, как работает технология и зачем она нужна в науке и сельском хозяйстве. Кстати, вы тоже можете поучаствовать.

Алексей Ваганов
Научный сотрудник ботанического сада АлтГУ

От объема растений — продовольственных, лекарственных, кормовых — зависит ассортимент аптек и магазинов, а также цены на товары. А фермерам хотелось бы, чтобы урожай не уничтожили сорняки. Мы в АлтГУ разработали лабораторию, в которой можно строить прогнозы по распространению растений на любой территории. Рассказываю, с чего всё начиналось, чего мы достигли и что будем развивать дальше.

Как и зачем биологи начали классифицировать данные

В биологических коллекциях ученых и натуралистов-любителей можно найти и материалы 500-летней давности. Накоплением данных занимались давно, но только в последние десятилетия их начали обрабатывать. Тогда информация из таблиц, записей и личных компьютеров стала переходить в онлайн.

Чтобы собрать все материалы в одном месте, в 1999 году по заказу ОЭСР была создана Глобальная информационная система по биоразнообразию (Global Biodiversity Information Facility, GBIF). Сейчас в ней более 2 млрд записей.

Помимо коллекций ученых, один из источников данных для GBIF — платформа iNaturalist, на которую натуралисты и ученые загружают фотографии растений и животных с геопривязкой. Любитель может добавить фото и предположить, что это за вид, далее соответствие оценивается с помощью компьютерного зрения, а в конце определение проверяет ученый-биолог. Сегодня на платформе GBIF собрано более 72 тысяч баз данных.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Ученые используют эти данные в исследованиях и научных работах, чтобы изучать определенный вид, оценивать его популяцию и угрозу исчезновения, строить эволюционные теории.

Зачем все эти данные кому-то, кто не биолог

Прогнозы по поведению растений и животных нужны и государственным службам, и фермерам, и любителям природы.

Системе здравоохранения важно понимать, как распространяются инфекционные и вирусные организмы, а фитосанитарному контролю — как ведут себя инвазионные виды, такие как борщевик и колорадский жук. Для продовольственного планирования необходима оценка биоресурсов: сколько урожая будет в этом году.

В перспективе возможно введение лицензий на сбор растений на определенной территории — по аналогии с разрешением на охоту. Это особенно актуально для компаний, которые изготавливают фитосборы и собирают дикорастущие, в том числе лекарственные, растения.

Еще прогнозная модель поможет пожарному надзору. Чтобы оценить, как будет распространяться огонь и какие виды пострадают, важно знать, какая растительность в очаговом районе и на территориях вокруг.

Фермеры могут использовать систему для борьбы с агрессивными видами растений. Аллергикам стоит смотреть за распространением аллергена при планировании отпуска и выборе места для жизни. Любители отдыха на природе могут строить маршруты, опираясь на прогнозы о том, где они встретят то или иное растение.

Наша разработка: от коллекций на полках до виртуальной лаборатории

Мы собирали коллекцию алтайских растений — «Гербарий ALTB» — последние 30 лет. По величине она занимает четвертое место среди российских вузов.

К GBIF университет присоединился в 2017 году и с тех пор внес в систему 50 571 запись и соответствующее ей изображение гербарного листа. И это пока чуть более 10% всей коллекции АлтГУ.

Карта мира на сайте GBIF. Зеленое — меньше всего данных, красное — больше всего
Карта мира на сайте GBIF. Зеленое — меньше всего данных, красное — больше всего

Горная система Алтая и Саян входит в 200 ключевых экорегионов мира. На площади, составляющей всего 10% территории, сосредоточено 90% биоразнообразия планеты. При этом сейчас на карте GBIF Россия бледнее многих других регионов: это значит, что у нас пока цифровизовано очень мало данных. Надеюсь, что полный перенос коллекций вуза в цифровое облако GBIF изменит карту и Алтай еще сильнее загорится красной точкой.

Карта GBIF на основе данных виртуального гербария АлтГУ
Карта GBIF на основе данных виртуального гербария АлтГУ

В этому году в АлтГУ начался первый большой проект с применением методов информатики биоразнообразия — по фиторазнообразию Алтайской горной страны. Мы автоматизировали инвентаризацию конспектов растений и повысили точность карт для современных ареалов. Наша оцифрованная коллекция стала самой большой в мире по этой территории.

И наконец, на основе больших данных мы начали работать над системой, которая позволяет предсказывать распространение растений на определенной территории.

Как система выглядит сейчас

В виртуальной лаборатории можно отслеживать распространение растений на любой территории. Для анализа достаточно загрузить датасет — свой или из GBIF.

Пока система рассчитана на научных сотрудников. Например, им нужно выявить реальный и потенциальный ареал обитания ценного алтайского растения красный корень. Для этого они загружают уже имеющиеся данные о местонахождении этого вида.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Далее откроется карта с точками, где обитает этот вид в природе. Пользователи выбирают территорию, которую хотят исследовать, и система моделирует по ней потенциальный ареал обитания.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Ученые сами выбирают прогнозную модель и метод генерации фоновых точек.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

При прогнозе модель учитывает накопленные данные по разным территориям: самая высокая и самая низкая температура, влажность, осадки, тип почвы. Коллекции данных, на которых обучалась система, тоже можно выбрать.

Результат появляется в виде тепловой карты:

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Каждый пиксель соотносится с неким значением от 0 до 1 — это вероятность произрастания данного вида на территории. Например, 0,3 — 30% — маловероятно, а 1 — 100% — вероятность встречи с видом крайне высока.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

На такой инфографике можно рассмотреть, в каких регионах встречается растение и по каким точкам это моделировалось.

Для работы с данными мы используем облачную платформу Yandex Cloud. В частности, храним там датасеты для обучения алгоритма. Для визуализации аналитики пока пользуемся бесплатными системами — возможно, заменим их на Yandex DataLens.

В Австралии существовал похожий проект по прогнозированию биоразнообразия и климата — BCCVL (Biodiversity and Climate Change Virtual Lab). Теперь на его основе появится другая платформа для экологического моделирования — EcoCommons. Отличие нашей системы в том, что, помимо визуализации на карте, она может оценить, какую территорию занимает вид. То есть 90%-ная встречаемость — это сколько в квадратных километрах.

Отличает клен от клевера и понимает, как фермеру уберечь свой урожай

Как система будет работать в будущем

Мы упростим сервис так, чтобы им мог пользоваться кто угодно. Например, точки присутствия вида будут загружаться из GBIF — фермеру или путешественнику не придется самостоятельно искать и загружать датасеты.

Пользователю нужно будет ввести название растения — узнать его можно через iNaturalist. Возможно, в дальнейшем мы добавим идентификацию по фотографии в свою систему. Далее пользователь выберет территорию, по которой ему нужен прогноз. Например, можно задать определенный радиус от своего местоположения или указать любой другой регион.

Такие функции появятся в приложении для любителей, которое мы планируем разработать через полтора года. А в браузерной версии будут расширенные возможности для профессионалов.

Зачем ученым помощь любителей

Как объект изучения для биолога ценен любой материал — даже тот, которому 500 лет. Но вот для биомоделирования нужно понимать актуальную картину, поэтому ученых интересуют образцы флоры и фауны с точными координатами, собранные за последние 30−50 лет. Их гораздо меньше, и почти все они были оцифрованы в первые годы. Поэтому в начале 2010-х стало поступать меньше данных из виртуальных коллекций. Новый всплеск начался с появлением платформы iNaturalist, когда данными смогли делиться даже любители. Чтобы этот процесс продолжался и жители России активно пополняли такие базы данных, необходимо их вовлекать и обучать.

В 2020 году я разработал онлайн-курс по методам сбора и обработки биологических данных. На него могут прийти как биологи, так и просто все неравнодушные. А посмотреть, как устроена настоящая лаборатория и как ученые собирают данные в поле, можно в режиме VR в нашем видео на YouTube.

Подписывайтесь на блог Yandex Cloud, чтобы узнавать еще больше новостей и историй об IT и бизнесе.

Другие истории наших партнеров и клиентов, которые активно читают наши подписчики:

2626
6 комментариев

в общем это все не для обычных людей

2
Ответить

Сейчас система, правда, больше для научных сотрудников. Но команда сейчас много работает, чтобы ее упростить и сделать доступной для каждого, кто хочет обнаружить лютик на своем огороде

4
Ответить

3 года назад была в Украине, недалекоот Мариуполя. Там местный агрохолдинг обрабатывал земли. Дроны для полива, тракторы на дстанционном управлении, подход просто обалденный. Так что технологии и агрохолдинг стали очень близки друг к другу

2
Ответить

А что там теперь?

Ответить

Глобальная информационная система по биоразнообразию (Global Biodiversity Information Facility, GBIF)Ого, удобненько. Можно посмотреть, что там растет у врага и ударить по самым слабым местам сельского хозяйства. Да и биотеррористам будет интересно ознакомиться.

Ответить