Anthropic: Claude сравнялся с экспертами в биоинформатике

Anthropic запустила BioMysteryBench — тест из 99 задач по биоинформатике на реальных данных. Claude Mythos Preview достигает 82,6% точности на задачах, доступных экспертам, и 30% на сверхсложных. Результаты подтверждает независимый CompBioBench от Genentech и Roche.

Бенчмарк BioMysteryBench от Anthropic для задач биоинформатики

BioMysteryBench от Anthropic демонстрирует способность Claude справляться с реальными задачами биоинформатики на уровне специалистов. Результаты обнадеживают, но сопровождаются серьезными оговорками.

Определить эффективность ИИ-моделей в биологических исследованиях — непростая задача. Как отмечает Anthropic, существующие тесты страдают от недостатков: MMLU-Pro и GPQA оценивают запас знаний, но игнорируют практические навыки. BixBench опирается на реальные наборы данных, однако сравнивает модели с выводами отдельных ученых, подверженными субъективности и методологическим решениям. А симуляторы вроде SciGym предлагают четкие ответы, но упускают хаос настоящих биологических данных.

Именно поэтому Anthropic представила BioMysteryBench: 99 вопросов по различным разделам биоинформатики, подготовленных экспертами на базе реальных, шумных наборов данных. Главная особенность — ответы, не зависящие от научных интерпретаций, а основанные на контролируемых, объективно проверяемых характеристиках данных или независимо подтвержденных метаданных. Каждый автор вопроса предоставил валидационный ноутбук, доказывающий наличие сигнала в данных. Такой подход позволяет формулировать задачи, которые могут оказаться недоступны даже для людей.

Среди типичных заданий — определение органа по данным single-cell RNA или выявление выбитого гена в экспериментальных образцах. Claude работает в контейнере с биоинформатическими инструментами, имеет доступ к базам вроде NCBI и Ensembl, а также полную свободу в выборе методов анализа. Оценивается исключительно итоговый ответ, а не путь к нему.

Высокие показатели на доступных задачах, но сверхсложные остаются нестабильными

Anthropic разделила задания на две категории: 76 сочтены "решаемыми для людей", поскольку хотя бы один из до пяти экспертов дал верный ответ. Еще 23 задачи не поддались никому из специалистов. Четыре вопроса изначально запланированных удалили из-за ошибок в формулировках. Что касается оставшихся 23, Anthropic признает: неясно, являются ли они принципиально неразрешимыми или просто чрезмерно трудными. Остается открытым вопрос, смогла ли бы более крупная или иная группа экспертов их решить.

На решаемых задачах Claude демонстрирует результаты, сравнимые с человеческими экспертами, по данным Anthropic.

Результаты моделей Claude на задачах BioMysteryBench, доступных экспертам — На задачах, решаемых людьми, свежие версии Claude значительно превосходят в биологических тестах: Mythos Preview достигает 82,6% точности, в то время как Haiku 4.5 показывает 36,8%. | Изображение: Anthropic

На сверхсложных задачах, где эксперты потерпели неудачу, Claude Mythos Preview добивается 30% успеха.

Результаты моделей Claude на самых сложных задачах BioMysteryBench — На самых трудных заданиях BioMysteryBench показатели успеха остаются невысокими: Mythos Preview набирает 29,6%, а Haiku 4.5 — всего 5,2%. | Изображение: Anthropic

Однако анализ стабильности, который провела сама модель Claude Mythos Preview, рисует более детальную картину. Каждую задачу решали пять раз. На доступных задачах модель либо преуспевала во всех пяти попытках, либо проваливала все. На сверхсложных успехи приходились обычно на одну-две попытки из пяти. Модель натыкается на удачный путь решения случайно, а не использует воспроизводимую стратегию.

Anthropic выделяет два приема, отличающих Claude от человеческих тестеров: модель опирается на обширные знания и сразу интегрирует их с текущим анализом. При неуверенности Claude применяет несколько методов последовательно и выбирает вариант, на котором сходятся результаты разных подходов.

Независимое подтверждение дают CompBioBench — аналогичный бенчмарк, разработанный параллельно Genentech и Roche с похожими итогами. BioMysteryBench доступен на Hugging Face.

Новый бенчмарк Anthropic: Claude на уровне экспертов в биоинформатике

Высокие показатели на доступных задачах, но сверхсложные остаются нестабильными

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Топ-5 MCP-серверов для создания мощных ИИ-агентов

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

YouTube уточняет правила по ИИ-мусору и шокирующим видео

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Сейчас в тренде