Новый бенчмарк OpenAI FrontierScience проверяет ИИ на олимпиадном и исследовательском уровне. GPT-5.2 заняла первое место, но тесты выявили, где современные системы пока буксуют.
OpenAI считает, что текущие научные бенчмарки уже не справляются с задачей. В ноябре 2023 компания запустила GPQA — множественный выбор с вопросами уровня PhD, которые сложно найти в поиске. Тогда GPT-4 набрала 39%. Два года спустя GPT-5.2 достигла 92%. Из-за такого быстрого прогресса нужны более строгие способы оценки.
Так появился FrontierScience — бенчмарк из двух частей: олимпиадный набор с задачами уровня мировых научных соревнований и исследовательский с открытыми вопросами PhD-уровня. В опубликованном Gold-наборе 160 вопросов по физике, химии и биологии — их отобрали из 700 исходных. Остальные OpenAI приберегла, чтобы избежать загрязнения данных.
Олимпиадные задачи придумали медалисты, а исследовательские — учёные
Сто олимпиадных вопросов составили 42 бывших призёра международных олимпиад или тренера сборных — вместе они взяли 108 медалей. Задачи основаны на Международной олимпиаде по физике, химии и биологии. Каждый ответ уникален: число, алгебраическое выражение или термин.
Шестьдесят исследовательских задач подготовили 45 специалистов по квантовой механике, молекулярной биологии и фотохимии. На каждую уходит минимум три-пять часов. Здесь нет единого верного ответа — оценка по десятибалльной шкале, которую ставит GPT-5 на высокой интенсивности рассуждений.
GPT-5.2 впереди, но с исследованиями беда
Все модели проверили на высокой интенсивности рассуждений, GPT-5.2 ещё и на сверхвысокой — без доступа к браузеру. Она набрала 77% на олимпиаде и 25% на исследованиях. Gemini 3 Pro почти догнала — 76% на олимпиаде. На исследованиях GPT-5.2 делит лидерство с GPT-5, а вот GPT-5.1 удивила в плохом смысле — всего около 19%.
Claude Opus 4.5 показала 71% на олимпиаде и 18% на исследованиях. Grok 4 — 66,2% и 16% соответственно. GPT-4o сильно отстала: 12% на олимпиаде и меньше процента на исследованиях. Модель o1, первая с цепочкой рассуждений от OpenAI, вышедшая в сентябре, дала серьёзный рывок.
Чем больше вычислений, тем лучше показатели
Результаты напрямую зависят от объёма вычислений. GPT-5.2 на олимпиаде поднялась с 67,5% на низкой интенсивности до 77% на максимальной. На исследованиях — с 18% до 25%. Исключение — модель o3 от OpenAI: на исследованиях она чуть хуже справилась на высокой интенсивности, чем на средней. Компания сочла это неожиданным, но причин не назвала.
Тесты подтверждают успехи на экспертных вопросах, но впереди ещё много работы, особенно с открытыми задачами. По предметам лидер — химия. Модели чаще всего спотыкаются на логических ошибках, редких понятиях, арифметических просчётах и фактических неточностях.
ИИ-модели осваивают числа и ускоряют науку
Недавно накопилось немало примеров, как ИИ помогает в исследованиях. OpenAI собрала кейсы в отчёте "GPT-5 Science Acceleration": математики получают подсказки по доказательствам, физики — по анализу симметрии, иммунологи — по гипотезам и планам экспериментов.
Физик Стив Хсу напечатал статью, где ключевая идея родилась у GPT-5. Он предрекает эру гибридных команд человек плюс ИИ как норму в математике, физике и других точных науках. Правда, публикация нарвалась на критику.
OpenAI нацелилась на автономных ИИ-исследователей к 2028 году — они должны взвинтить темпы открытий. Google DeepMind заставила Gemini взять золото на математической олимпиаде чисто на естественном языке. В 2025 OpenAI показала, как продвинутые рассуждения с подкреплением позволяют решать сложную математику часами без символических помощников. Даже Теренс Тао признался, что ИИ сэкономил ему часы на задаче.
Но эксперты напоминают о рисках: если слепо полагаться на ИИ в науке, можно завалить мир правдоподобными, но ложными результатами.