Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

ИИ DeepMind иногда решает задачи лучше людей

ИИ-агент Aletheia от Google DeepMind самостоятельно написал математическую статью, опроверг конъектуру и нашел ошибку в криптографии. Однако из 200 ответов на открытые задачи Эрдёша полезными оказались только 6,5%. Исследователи дали советы по работе с ИИ и предложили систему оценок достижений.

12 февраля 2026 г.
9 мин
30

ИИ-агент Aletheia от Google DeepMind самостоятельно подготовил математическую статью, опроверг конъектуру десятилетней давности и обнаружил ошибку, ускользнувшую от экспертов по криптографии. Однако всесторонняя проверка на 700 открытых проблемах позволяет увидеть полную картину. Исследователи также собрали практические советы для ученых по взаимодействию с ИИ.

Google DeepMind выпустила две научные работы, где демонстрирует, как модель Gemini Deep Think помогает решать реальные задачи исследований. Главная роль отведена системе Aletheia, созданной на базе новой версии Gemini Deep Think специально как цифровому помощнику по математике. Вторая работа описывает применение в физике, информатике и экономике. OpenAI год назад опубликовала похожую статью.

Ключевые успехи: статья по математике, полностью сгенерированная ИИ, совместные доказательства с математиками-людьми, опровержение конъектуры возрастом в десять лет и выявление серьезной ошибки в криптографической работе. А вот обратная сторона: при систематической оценке на 700 открытых математических задачах полезными оказались лишь 6,5% ответов ИИ.

Три ИИ-агента, которые взаимно проверяют решения

Согласно статье, Aletheia работает по простому принципу: один компонент ИИ предлагает решение, второй ищет в нем ошибки, третий корректирует неудачные варианты. Цикл повторяется, пока проверяющий не одобрит ответ или не исчерпается лимит попыток. Важно, что система умеет признавать бессилие перед задачей — это экономит время людям при совместной работе.

Математические исследования, в отличие от олимпиадных задач, требуют глубокого знания литературы. Здесь ИИ часто сталкивается с известной слабостью: выдумывает источники. Aletheia подключает Google Search и просмотр веб-страниц для проверки ссылок. По словам авторов, это сильно сократило грубые выдумки вроде фальшивых названий книг или имен ученых. Но проблемы переместились: теперь модель ссылается на реальные работы, однако иногда искажает их суть — такой дефект недавно подчеркнул бенчмарк Halluhard.

На тесте из 30 сложных задач уровня математической олимпиады Aletheia показала точность 95,1% — большой прогресс по сравнению с 65,7% у предшественника в июле 2025 года. А на более трудных задачах уровня PhD система дала ответы менее чем для 60% проблем.

ИИ полностью написал научную статью без участия математика

Авторы описывают несколько достижений с разной долей вклада ИИ. Вся математическая часть одной статьи по узкой проблеме арифметической геометрии, как отмечают авторы, вышла целиком из-под пера ИИ. Aletheia применила приемы из подотрасли математики, о которой люди из основной группы даже не слышали.

В другой работе роли поменялись: Aletheia набросала общую стратегию доказательства, а математики разобрались с деталями. Авторы подчеркивают необычность подхода, ведь ИИ обычно берут за рутинную проработку, а не за стратегическое видение.

Финальные версии статей все же писали люди. Причина: подпись под математической работой подразумевает ответственность за весь контент, включая точные цитаты. С этим справляется только человек.

Лишь 6,5% ответов на открытые задачи оказались полезными

Самый показательный анализ охватил 700 открытых задач венгерского математика Пола Эрдёша из онлайн-базы. С 2 по 9 декабря 2025 года команда запустила Aletheia на все помеченные как нерешенные проблемы. Некоторые из них позже решили с помощью ИИ, в том числе GPT-5 от OpenAI.

Итог: из 200 четко оцениваемых ответов 137 (68,5%) оказались полностью неверными. 63 (31,5%) математически верны, но только 13 (6,5%) действительно решали поставленную задачу. Остальные 50 корректных решений авторы назвали «математически пустыми» — модель перефразировала вопрос так, чтобы ответ стал тривиальным.

Исследователи трактуют это как «игру с формулировкой»: ИИ целенаправленно упрощает задачи до легких вариантов, даже если для эксперта-человека такой подход выглядит абсурдно.

ИИ преуспевает в связывании удаленных областей знаний

Вторая статья DeepMind фиксирует совместную работу с экспертами по 18 задачам из информатики, физики и экономики. Она опирается на предыдущие опыты с Gemini Deep Think как автоматическим рецензентом тезисов для конференций по теоретической информатике.

Особая сила модели — в установке связей между далекими дисциплинами. На классической задаче оптимизации сетей ИИ привлек инструменты из геометрического функционального анализа — области, чуждой специалистам по алгоритмам. Для проблемы гравитационного излучения от космических струн система предложила шесть различных путей решения.

Полная статья за восемь промтов

Яркий пример — эксперимент информатика Ланса Фортнова. Он с помощью редактора с ИИ написал целую научную статью всего за восемь промтов. Модель сама нашла доказательство главного результата, но ошиблась в королларии: приняла за факт открытую проблему. После подсказки сразу поправилась.

Фортнов отметил странное ощущение, будто обманул систему, — сравнил с первым использованием LaTeX, когда статья выглядела круче, чем заслуживала.

Еще случай: конъектура 2015 года по задаче оптимизации, которую эксперты не могли разрешить десять лет. ИИ опроверг ее за один запуск, построив контрпример из трех элементов, разоблачивший интуитивное предположение.

В криптографии модель нашла грубую ошибку в препринте, где заявляли прорыв. Расхождение между теоретическим определением и реализацией оказалось таким тонким, что рецензенты-человеки его проглядели. Независимые специалисты подтвердили открытие, авторы исправили текст.

Как ученым выжать максимум из работы с ИИ

На основе опыта авторы второй статьи составили рекомендации для ученых. Главный совет: относитесь к модели как к талантливому, но часто лажающему младшему коллеге, а не как к оракулу.

Конкретно: дробите большие вопросы на мелкие проверяемые подзадачи вместо броска всей открытой проблемы. При ошибке точная подсказка обычно приводит к верному — и нередко изящному — решению на следующем шаге.

Особо эффективен «сбалансированный промт»: вместо просьбы доказать конъектуру просите доказательство или опровержение. Это ослабляет давление модели всегда поддерживать тезис из запроса.

Полезный прием для известных открытых задач: иногда ИИ отказывается браться за проблему, если узнает ее статус. Тогда помогает убрать контекст и ввести голое описание без упоминания нерешенности — «деидентификация контекста». Или напрямую подать релевантные статьи: модель строит куда лучшие доказательства.

Для задач, где символьную математику проверяют числами, советуют «нейро-символический цикл»: ИИ предлагает решение, пишет код для численной проверки, при сбое ошибки возвращаются модели автоматически. Так ИИ сам отсеивает неверные пути. При расчете космического излучения метод убрал 80% из ~600 кандидатов на ранних этапах.

Новая система оценок отделит хайп от реальных успехов

Чтобы развеять ажиотаж вокруг ИИ-математики, исследователи предлагают стандартную шкалу оценок. Результаты делят по двум осям: уровень вовлеченности ИИ (в основном человек, совместная работа или почти автономно) и научная ценность (от «незначительной» до «прорыв уровня поколения»).

Свои достижения авторы оценивают скромно. Решенные задачи Эрдёша, несмотря на статус «открытых» десятилетиями, математически просты. Автономная статья по собственным весам годится для публикации, но укладывается в типичный уровень журналов. Ученые не приписывают результатам статус «крупного продвижения» или «эпохального прорыва».

Они также предлагают «Карты взаимодействия человек-ИИ» с фиксацией промтов и выводов ИИ, приведших к ключевым находкам. Математик мирового уровня Теренс Тао уже запустил вики-сообщество для публичного учета прогресса по задачам Эрдёша с помощью ИИ.

Широкие знания помогают, но уверенность в ошибках мешает

Исследователи подчеркивают: сейчас ИИ не может надежно решать исследовательскую математику. Успехи держатся на огромном охвате знаний и хитрых обходах, а не на подлинном творчестве. Ошибки подаются с большой уверенностью, что усложняет сотрудничество.

Вторая статья предупреждает о кризисе рецензирования: если ИИ ускорит выпуск сложных бумаг, узким местом станет не генерация идей, а их проверка. Обычные процедуры ревью к этому не готовы.

Тем не менее авторы обеих работ видят в Gemini Deep Think «усилитель» для человеческих исследований. Модель берет поиск знаний и рутинную верификацию, освобождая ученых для настоящего мышления. Сработает ли такое разделение в деле, зависит от умения людей проверять выводы ИИ.

DeepMind не одинока в оценке. Кевин Вейл, глава научной команды OpenAI, ждет, что ИИ в науке станет обыденностью в этом году, как уже в разработке ПО. К 2028 году компания планирует автономного исследователя.