Исследователи связывают такой разрыв в результатах с ключевым противоречием между оторванными от контекста вопросами викторин и подлинными научными открытиями. Настоящие исследования предполагают понимание контекста проблемы, пошаговую разработку гипотез и анализ неполных данных — умения, которые стандартные тесты не оценивают.
Текущие тесты проверяют неподходящие навыки
Суть проблемы, как считают авторы работы, в подходе к созданию существующих научных бенчмарков вроде GPQA, MMMU или ScienceQA. Эти наборы задач фокусируются на разрозненных фактах, слабо привязанных к конкретным областям исследований. А научные открытия происходят иначе: через последовательные размышления, постановку и корректировку гипотез, а также разбор неоднозначных наблюдений.
Чтобы преодолеть этот пробел, разработчики представили бенчмарк SDE — 1125 вопросов по 43 исследовательским сценариям в четырех областях: биология, химия, материаловедение и физика. Главное отличие от привычных тестов — каждая задача привязана к реальному исследовательскому сценарию из подлинных проектов. Эксперты сначала описали типичные ситуации из своей практики, а потом составили вопросы, которые проверили коллеги.
Сценарии охватывают задачи вроде прогнозирования химических реакций, определения структур по спектрам ЯМР или поиска причинных генов в исследованиях ассоциаций по всему геному. Такой выбор отражает повседневные нужды ученых.
Результаты сильно разнятся по сценариям
Данные демонстрируют общее снижение показателей по сравнению с обычными бенчмарками и огромный разброс между сценариями. Например, GPT-5 набирает 0,85 в планировании ретросинтеза, но всего 0,23 при определении структур по ЯМР. Эта нестабильность видна у всех протестированных моделей.
Авторы подчеркивают: простая классификация вопросов по темам недостаточна. В научных открытиях часто подводит самое слабое звено. Бенчмарк SDE выявляет сильные и слабые стороны языковых моделей именно в конкретных исследовательских ситуациях.
Увеличение масштаба и размышлений дает все меньший эффект
В работе также проверили, помогают ли привычные методы подъема производительности — большие модели и дополнительное время на размышления — в научных задачах. Вывод неоднозначный.
Размышления в целом повышают точность: Deepseek-R1 опережает Deepseek-V3.1 в большинстве сценариев, хотя базовая модель у них одна. При проверке правила Липински о пятерке — эмпирического критерия для оценки биодоступности лекарств при приеме внутрь — размышления поднимают точность с 0,65 до 1,00.
Однако эффект ослабевает. У GPT-5 переход от "среднего" к "высокому" уровню размышлений почти не меняет дела. А скачок от o3 к GPT-5 приносит лишь небольшой прирост, причем GPT-5 хуже справляется в восьми сценариях.
Главный вывод: подход с ростом размеров моделей и вычислений на этапе тестирования, который недавно дал прорыв в программировании и математике, упирается в потолок при научных открытиях.
Лучшие модели ошибаются похоже
Еще одно наблюдение: топовые модели от разных компаний — GPT-5, Grok-4, Deepseek-R1 и Claude-Sonnet-4.5 — демонстрируют сильно коррелирующие профили ошибок. В химии и физике коэффициенты корреляции между парами моделей превышают 0,8. Они часто дают одинаковые неверные ответы, особенно на сложных вопросах.
Это указывает на общие данные для обучения и похожие цели оптимизации, а не на различия в архитектуре. На практике ансамбли вроде голосования большинством между моделями вряд ли сильно помогут на самых трудных задачах.
Чтобы выделить слабости, создали подмножество SDE-hard из 86 особо сложных вопросов. Стандартные модели набирают там менее 0,12. Только GPT-5-pro, которая в 12 раз дороже, достигает 0,224 и правильно решает девять задач, где все остальные проваливаются.
Тестирование на уровне проектов показывает дополнительные проблемы
SDE оценивает не только отдельные вопросы, но и работу на уровне целых проектов. Здесь модели проходят полный цикл научного открытия: ставят гипотезы, проводят эксперименты и анализируют результаты для их доработки.
Рассмотрены восемь проектов — от дизайна белков и редактирования генов до ретросинтеза, оптимизации молекул и символической регрессии. Ключевой момент: ни одна модель не лидирует во всех. Лидерство меняется в зависимости от задачи.
Интересно, что успех на вопросах не всегда переносится на проекты. При оптимизации комплексов переходных металлов GPT-5, Deepseek-R1 и Claude-Sonnet-4.5 находят лучшие варианты из миллионов, несмотря на слабость в связанных вопросах. А в ретросинтезе они буксуют из-за неработающих путей синтеза, хотя на вопросах преуспевают.
Авторы трактуют это так: важнее не узкие знания, а умение методично обшаривать огромные пространства решений и вылавливать перспективные варианты, даже неожиданные.
Языковые модели далеки от научного сверхразума, но уже помогают
Итог исследования однозначен: ни одна текущая языковая модель не приближается к научному "сверхразуму". Однако это не делает их бесполезными. Они уже хорошо справляются с отдельными проектами, особенно в связке со специализированными инструментами и помощью ученых. Модели планируют эксперименты, просеивают гигантские пространства поиска и предлагают кандидатов, которые исследователи могли упустить.
Чтобы сократить отставание, предлагают переориентироваться с чистого масштабирования на целенаправленное обучение постановке проблем и генерации гипотез. Нужно разнообразить данные предобучения для снижения общих ошибок, встроить использование инструментов в тренировку и разработать методы обучения с подкреплением под научное мышление. Оптимизации для кода и математики не переносятся на открытия автоматически.
Фреймворк и данные бенчмарка станут основой для развития моделей в сторону научных открытий. Пока охвачены только четыре области — геонауки, социальные науки и инженерия ждут своей очереди, — но модульная структура позволяет расширяться. Доступны код и скрипты для вопросов плюс данные для проектов.
Недавно OpenAI запустила свой FrontierScience — тест для оценки ИИ в науке за пределами простых вопросов-ответов. Результаты схожи: знания из викторин не заменяют умения исследователя.