ИИ решает 40% задач FrontierMath быстрее ученых

Математика идеально подходит для оценки прогресса ИИ. Ее пошаговая логика проста в отслеживании, а точные ответы проверяются автоматически без человеческого влияния. Однако системы ИИ развиваются так быстро, что существующие тесты еле поспевают за ними.

В ноябре 2024 года некоммерческая организация Epoch AI представила FrontierMath — строгий стандартизированный бенчмарк для проверки математического мышления передовых ИИ-инструментов.

«Это набор очень сложных математических задач», — рассказывает старший исследователь Epoch AI Грег Бернхэм. «Изначально их было 300 в уровнях 1–3, но способности ИИ ускорились, пришлось бежать впереди — добавили особый набор тщательно составленных задач уровня 4».

Примерно уровни 1–4 соответствуют математике от продвинутого бакалавриата до начала постдока. При запуске ведущие модели ИИ решали меньше 2% задач FrontierMath. А сегодня лучшие общедоступные системы, такие как ChatGPT 5.2 Pro и Claude Opus 4.6, справляются более чем с 40% из 300 задач уровней 1–3 и свыше 30% из 50 задач уровня 4.

ИИ осваивает математику уровня докторантуры

Темпы развития не сбавляются. Недавно Google DeepMind сообщила, что экспериментальная система Aletheia, основанная на Gemini Deep Think, добилась результатов уровня докторской диссертации, пригодных для публикации. Речь о расчете специальных структурных констант в арифметической геометрии — eigenweights, что математически довольно нишево, но важно для ИИ.

«Они утверждают, что система работала автономно, без подсказок от человека, и результат публикуем», — отмечает Бернхэм. «Это нижний край того, что заинтересует математиков, но ново — такого раньше не видели».

Для контекста: все задачи FrontierMath имеют известные решения, выведенные людьми. Человек мог бы получить такой же итог Aletheia «за неделю упорной работы», говорит Бернхэм, но никто этого не сделал.

Достижения Aletheia и других ИИ-математиков показывают: нужны более жесткие тесты, и срочно, иначе старые устареют. «Простые математические бенчмарки уже бесполезны, их несколько поколений», — добавляет Бернхэм. «FrontierMath, вероятно, насытится (то есть топ-модели наберут 100%) за пару лет, может быстрее».

Вызов First Proof

Чтобы справиться с вызовом, 6 февраля группа из 11 известных математиков предложила First Proof — 10 крайне трудных задач из их исследований. Доказательства для них умещаются в пять страниц, их никто не знал. Этот предварительный тест проверял, сможет ли ИИ самостоятельно решать вопросы исследовательского уровня.

Вызов вызвал ажиотаж: профессионалы, любители, команды вроде OpenAI взялись за дело. Но к 14 февраля, когда авторы выложили доказательства, никто не сдал все 10 правильно.

Сами авторы решили только две с помощью Gemini 3.0 Deep Think и ChatGPT 5.2 Pro. Большинство внешних попыток провалились, кроме OpenAI: их внутренняя топ-система с минимальным человеческим контролем справилась с пятью задачами. Реакции в математическом сообществе — от восторга до разочарования. Команда готовит второй, еще сложнее раунд 14 марта.

Новая граница для ИИ

«First Proof отличный: он максимально приближает ИИ к роли математика», — считает Бернхэм. Хотя он ценит, как вызов тестирует полезность ИИ для разных областей математики, в Epoch AI развивают свой метод — Frontier Math: Open Problems. Пилотный бенчмарк включает 14 открытых задач из исследований, над которыми бились профессионалы-математики и не справились. С 27 января, когда их выпустили, ни одну не решил ИИ.

«Open Problems сложнее», — объясняет Бернхэм. «Решение само по себе достойно публикации, хотя бы в специализированном журнале». Плюс каждая задача автогрейдится. «Парадоксально, но ответы неизвестны, а программа проверит правильно ли».

Бернхэм видит First Proof и Open Problems как дополнения. «Чем больше подходов к пониманию способностей ИИ, тем лучше. ИИ уже в чем-то превосходит большинство докторантов, так что задачи должны интересовать математиков не из-за ИИ, а сами по себе».

ИИ решает матзадачи быстрее, чем их придумывают ученые

ИИ осваивает математику уровня докторантуры

Вызов First Proof

Новая граница для ИИ

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде