GPT-2 научили читать ДНК: ИИ из Орегона восстанавливает эволюцию за минуты вместо дней

Пока половина индустрии переучивает большие языковые модели на код, рисует картинки и собирает агентов, в Орегонском университете тихо взяли архитектуру GPT-2 и применили её к, казалось бы, совсем не связанной задаче. Учёные построили модель cxt, которая читает последовательности ДНК так же, как языковая модель читает текст, и по этим «словам» восстанавливает эволюционное родство видов. То, на что классические биоинформатические методы тратят часы и сутки, нейросеть делает за минуты. Это очередная иллюстрация того, как трансформеры выходят далеко за пределы NLP и постепенно переписывают целые научные дисциплины.

Если коротко, cxt это языковая модель, у которой вместо предложений на английском или русском подаются геномные последовательности. Модель построена на модифицированной архитектуре GPT-2 и обучена на миллионах симулированных геномов приматов, грызунов, комаров и бактерий. На таком корпусе нейросеть выучивает закономерности мутаций примерно так же, как обычная LLM выучивает порядок слов и грамматику: какие замены нуклеотидов происходят чаще, какие реже, как они связаны со временем расхождения видов.

Главное отличие от классических подходов в том, что традиционные методы филогенетического анализа опираются на медленные статистические расчёты. Они строят деревья родства через переборные алгоритмы и оценки правдоподобия, и для больших датасетов всё это превращается в часы или дни вычислений. Модель cxt вместо этого делает один проход по последовательности, как трансформер делает inference на тексте, и оценивает общее происхождение за минуты. Авторы заявляют, что качество оценки при этом сопоставимо с тяжёлыми классическими методами.

Отдельно интересен прикладной кейс. На выборках комаров cxt показала сильные результаты в отслеживании того, как развивалась и распространялась устойчивость к инсектицидам по разным регионам. Это уже не академическая абстракция, а вполне практическая эпидемиологическая задача: где появилась резистентная популяция, как она мигрировала, какие гены отвечают за устойчивость. Похожий подход потенциально применим к вирусам, бактериям и любым другим быстро мутирующим организмам.

Для людей из мира ИИ здесь несколько важных выводов. Во-первых, GPT-подобные архитектуры в очередной раз доказывают, что они скорее универсальный инструмент работы с последовательностями, чем именно «языковая» технология. ДНК это последовательность из четырёх символов, белки это последовательность аминокислот, музыка, временные ряды, лог-файлы тоже последовательности. Многие задачи, которые раньше решались специализированными статистическими моделями, постепенно переходят в формат foundation model плюс дообучение под домен.

Во-вторых, история cxt показывает, что иногда не нужно изобретать новую архитектуру, чтобы получить прорыв в смежной области. Достаточно взять уже существующий, хорошо изученный трансформер, аккуратно адаптировать токенизацию и собрать качественный обучающий датасет. В случае с эволюционной биологией ключевой вклад это не модификация самой модели, а грамотная симуляция миллионов геномов, на которых она училась. Для ML-инженера это полезное напоминание, что данные часто важнее архитектуры.

В-третьих, такие работы меняют ландшафт научных инструментов. Если филогенетический анализ перестаёт быть многодневной задачей на кластере и превращается в инференс трансформера, у биологов и эпидемиологов появляется возможность работать с геномами в реальном времени. Это открывает дорогу для исследований древних миграций человека, эволюции заболеваний, генетической адаптации и предсказания будущих мутаций. Список потенциальных применений выглядит почти как анонс к научной фантастике, но при этом основан на вполне инженерной комбинации компонентов.

Есть и философский слой, который сами авторы поста в X сформулировали довольно ёмко: человечество строило машины, чтобы предсказывать следующее слово, и попутно научило их читать историю эволюции. Это хорошая иллюстрация того, как универсальные методы машинного обучения работают на много уровней глубже, чем казалось их создателям. Модель, изначально нацеленная на текст, оказывается удобным аппаратом для биологии, потому что и текст, и геном это просто последовательности с локальными и глобальными зависимостями.

С практической точки зрения для разработчиков и исследователей AI это сигнал внимательно смотреть на смежные дисциплины. Биоинформатика, климатология, материаловедение, медицина, экономика временных рядов: везде есть последовательности, для которых трансформеры уже сейчас переписывают state of the art. Возможно, следующая большая работа в этой парадигме будет сделана не очередной AI-лабораторией с миллиардным финансированием, а небольшой исследовательской группой, которая возьмёт открытую архитектуру и применит её к узкой специализированной задаче.