Международная математическая олимпиада как вызов для ИИ
Международная математическая олимпиада (IMO) — это наиболее престижное мировое соревнование для молодых математиков, проводимое ежегодно с 1959 года. Каждая страна-участница представлена шестью элитными математиками доуниверситетского уровня, которые соревнуются в решении шести исключительно сложных задач по алгебре, комбинаторике, геометрии и теории чисел. Медали присуждаются лучшей половине участников, причём около 8% получают почётные золотые медали.
В последние годы IMO также стала амбициозным испытанием для систем искусственного интеллекта, проверяющим их продвинутые способности к математическому решению задач и рассуждению. В прошлом году комбинированные системы AlphaProof и AlphaGeometry 2 от Google DeepMind достигли уровня серебряной медали, решив четыре из шести задач и набрав 28 баллов. Используя специализированные формальные языки, этот прорыв показал, что ИИ начинает приближаться к элитному человеческому математическому рассуждению.
Прорывное выступление Gemini Deep Think на IMO 2025
В этом году мы были среди первых, чьи результаты модели официально оценены и сертифицированы координаторами IMO с использованием тех же критериев, что и для студенческих решений. Признавая значительные достижения участников-студентов этого года, мы рады сообщить о прорывном результате Gemini.
Продвинутая версия Gemini Deep Think решила пять из шести задач IMO идеально, заработав 35 баллов из 42 возможных и достигнув уровня золотой медали. Решения можно найти в открытом доступе.
«Мы можем подтвердить, что Google DeepMind достиг долгожданного рубежа, заработав 35 из 42 возможных баллов — результат, соответствующий золотой медали. Их решения были поразительны во многих отношениях. Проверяющие IMO сочли их ясными, точными и в большинстве случаев легкими для понимания.»
Это достижение представляет собой значительный прогресс по сравнению с прошлогодним прорывным результатом. На IMO 2024 AlphaGeometry и AlphaProof требовали, чтобы эксперты сначала переводили задачи с естественного языка на предметно-ориентированные языки, такие как Lean, и обратно для доказательств. Это также занимало два-три дня вычислений. В этом году наша продвинутая модель Gemini работала сквозным образом на естественном языке, производя строгие математические доказательства непосредственно из официальных описаний задач — всё в пределах лимита времени соревнования в 4,5 часа.
Максимальное использование режима Deep Think
Мы достигли этого года результата, используя продвинутую версию Gemini Deep Think — улучшенного режима рассуждений для сложных задач, который включает некоторые из наших новейших исследовательских техник, включая параллельное мышление. Эта настройка позволяет модели одновременно исследовать и комбинировать несколько возможных решений перед выдачей окончательного ответа, вместо следования единой линейной цепи мысли.
Чтобы максимально использовать возможности рассуждений Deep Think, мы дополнительно обучили эту версию Gemini на новых техниках обучения с подкреплением, которые могут использовать больше данных о многошаговых рассуждениях, решении задач и доказательстве теорем. Мы также предоставили Gemini доступ к курируемому корпусу высококачественных решений математических задач и добавили некоторые общие подсказки и советы по подходу к задачам IMO в её инструкции.
Мы сделаем версию этой модели Deep Think доступной для группы доверенных тестировщиков, включая математиков, перед её выпуском для подписчиков Google AI Ultra.
Будущее ИИ и математики
Google DeepMind имеет продолжающиеся сотрудничества с математическим сообществом, но мы всё ещё только в начале потенциала ИИ для вклада в математику. Обучая наши системы рассуждать более гибко и интуитивно, мы приближаемся к созданию ИИ, способного решать более сложную и продвинутую математику.
Хотя наш подход в этом году был основан исключительно на естественном языке с Gemini, мы также продолжаем добиваться прогресса в наших формальных системах, AlphaGeometry и AlphaProof. Мы считаем, что агенты, сочетающие беглость естественного языка с строгим рассуждением — включая проверенное рассуждение на формальных языках — станут бесценными инструментами для математиков, учёных, инженеров и исследователей, помогая нам продвигать человеческие знания на пути к ОИИ.
Благодарности
Мы благодарим организацию Международной математической олимпиады за их поддержку.
Этот проект был крупномасштабным сотрудничеством, и его успех обусловлен совместными усилиями многих individuals и команд. Общее техническое руководство для усилий IMO 2025 возглавлял Thang Luong, который также совместно с Edward Lockhart координировал overall coordination.
IMO подтвердили, что наши представленные ответы являются полными и правильными решениями. Важно отметить, что их обзор не распространяется на валидацию нашей системы, процессов или базовой модели.