Claude обогнал докторов наук в биоинформатике: Anthropic выкатил BioMysteryBench и результаты пугают

Anthropic опубликовал свежее исследование, и оно ломает привычное представление о том, на что способны современные LLM в науке. Новый бенчмарк BioMysteryBench проверяет, может ли модель решать реальные задачи биоинформатики, и Claude уже на равных с PhD-экспертами, а на части задач обходит целые панели учёных.

Зачем вообще понадобился ещё один бенчмарк? Существующие тесты вроде MMLU-Pro, GPQA и LAB-Bench меряют знания и рассуждения, а BLADE, BixBench и SciGym пробуют оценить агентные сценарии. Но настоящая наука это шумные данные, субъективные методические решения и куча задач, которые человечество пока не решило. Anthropic собрал 99 заданий от доменных экспертов, причём правильный ответ выводится не из субъективного вывода учёного, а из контролируемых свойств данных или валидированной метаинформации (например, ответ подтверждён ПЦР-анализом).

Claude получает доступ к каноническим биоинформатическим инструментам, может ставить пакеты через pip и conda, дёргать NCBI и Ensembl, скачивать референсные геномы. Решения оцениваются по итоговому ответу, а не по пути к нему. Это даёт модели свободу выбирать стратегию: WGS-анализ, scRNA-seq, ChIP-seq, метилирование, метагеномика, протеомика, метаболомика.

Что в итоге: на 76 задачах, которые смог решить хотя бы один человек, последние поколения Claude уверенно выходят на уровень доменных экспертов. На 23 задачах, которые панель из пяти PhD не осилила, Claude Sonnet 4.6 и более старшие модели решают значимую долю, а Claude Mythos Preview добирается до 30 процентов. Для контекста: это вопросы, на которых группы профильных учёных просто пасуют.

Самое интересное это стратегии. Иногда Claude идёт по человеческой тропе, иногда вообще по другой. Например, там где эксперт запускал алгоритм или базу для аннотации, модель просто узнаёт паттерн в последовательности по памяти. Авторы напоминают, что первый эукариотический промотор открыли так же, заметив повторяющееся TATA. У LLM этот тип интуиции потенциально работает в гигантских масштабах.

Anthropic выделяет два ключевых приёма Claude. Первый, know-it-all: модель тащит из своей базы знания о структурной биологии, молекулярных профилях и метаанализе сотен тысяч статей и комбинирует это с живым анализом данных. Второй приём полезен и людям: когда модель не уверена, она запускает несколько разных методов и берёт ответ, на котором сходятся независимые подходы.

Есть нюанс с надёжностью. Claude Mythos Preview сам провёл анализ своих результатов и заметил, что на человеко-решаемых задачах модель бимодальна: либо решает 4 или 5 раз из 5, либо никогда. На сложных задачах распределение размазывается, почти половина побед это удачные попадания, а не воспроизводимый метод. То есть разрыв в точности между лёгкими и сложными задачами это только верхушка, под ним лежит более интересная проблема стабильности рассуждений.

Параллельно Genentech и Roche выкатили CompBioBench на 100 задач вычислительной биологии. Картина та же: Claude Opus 4.6 берёт 81 процент в общем зачёте и 69 процентов на самых сложных вопросах. Фронтирные модели реально становятся рабочими коллабораторами для биоинформатики, а не просто болталками.

Если коротко, граница того, что AI может в науке, сместилась. Модели уже не догоняют учёных в биоинформатике, на отдельных задачах они впереди. И главный вопрос теперь не «пройдёт ли модель экзамен», а «решит ли она проблему, которую люди не решили за десятилетия».

Источник: https://www.anthropic.com/research/Evaluating-Claude-For-Bioinformatics-With-BioMysteryBench