Публичный спор в соцсетях
Демис Хассабис, руководитель Google DeepMind, отреагировал на X тремя словами: «Это позорно».
Он комментировал восторженный пост Себастьяна Бубека, ученого из конкурирующей OpenAI. Тот заявил, что два математика применили новейшую языковую модель GPT-5 и нашли ответы на 10 нерешенных математических задач. «ИИ официально ускоряет науку», — ликовал Бубек.
Давайте разберемся в сути этого конфликта из середины октября. Он ярко показывает текущие проблемы в мире ИИ.
Бубек радовался, что GPT-5 справилась с несколькими загадками, известными как проблемы Эрдёша.
Пол Эрдёш, один из самых плодовитых математиков XX века, оставил после смерти сотни задач. Чтобы отслеживать их статус, Томас Блум из Манчестерского университета в Великобритании создал erdosproblems.com. Сайт содержит свыше 1100 задач, из которых около 430 имеют решения.
Когда Бубек восхвалял прорыв GPT-5, Блум сразу возразил на X: «Это грубое искажение фактов». Он уточнил, что отсутствие решения на сайте не значит, будто задача не решена. Просто ему неизвестно о таком. Математических статей в мире миллионы, и никто их все не читал. А вот GPT-5, вероятно, знакома с ними.
В итоге выяснилось: модель не придумала новые ответы на 10 задач, а просто нашла в сети 10 уже существующих решений, мимо которых прошел Блум. Ошибка!
Из этого вытекают два вывода. Во-первых, громкие заявления о прорывах лучше не озвучивать в соцсетях на эмоциях — сначала проверять.
Во-вторых, способность GPT-5 отыскивать малоизвестные ссылки на чужие работы сама по себе впечатляет. Хайп затмил эту полезную функцию.
Математики с интересом смотрят на языковые модели для анализа огромных массивов существующих результатов, рассказал Франсуа Шартрон, исследователь из стартапа Axiom Math, специализирующегося на применении ИИ в математике.
Другие случаи перехвалы ИИ
Но поиск по литературе кажется скучным по сравнению с настоящими открытиями — особенно для ярых поклонников ИИ в соцсетях. Ошибка Бубека не единственная.
В августе пара математиков доказала, что ни одна языковая модель тогда не могла решить задачу Ю Цумуры №554. Два месяца спустя в соцсетях взорвались сообщения, что GPT-5 справилась. Один комментатор написал: «Момент Ли Седоля для многих профессий близко», имея в виду мастера го, проигравшего ИИ AlphaGo от DeepMind в 2016 году.
Шартрон отметил, что задача Цумуры №554 для математиков — ерунда. «Это уровень студента-бакалавра. Есть привычка преувеличивать всё подряд».
Параллельно появляются взвешенные оценки возможностей языковых моделей. Пока математики спорили в сети о GPT-5, вышли две свежие работы о применении ИИ в медицине и юриспруденции — сферах, где разработчики хвалят свои системы.
Реальность в медицине и праве
В медицине модели ставят некоторые диагнозы, но плохо рекомендуют лечение. В юриспруденции ИИ выдает противоречивые и неверные советы. Авторы заключили: «Доказательства пока далеки от убедительности».
Такие выводы не популярны на X. «Все в возбуждении, общаются без остановки — никто не хочет отстать», — объясняет Шартрон. Здесь ИИ-новости появляются первыми, хвастаются результатами, публично спорят ключевые фигуры вроде Сэма Альтмана, Яна Лекуна и Гэри Маркуса. Трудно уследить — и оторваться.
Пост Бубека стал позором только потому, что промах заметили. Не все ошибки ловят. Без изменений исследователи, инвесторы и энтузиасты будут подогревать друг друга. «Некоторые — ученые, многие нет, но все гики. Грандиозные заявления отлично заходят в этих сетях», — сказал Шартрон.
Свежие успехи Axiom Math
Есть продолжение. Стартап Axiom Math сообщил, что его модель AxiomProver решила две открытые проблемы Эрдёша — №124 и №481. Для молодой компании, основанной пару месяцев назад, это солидно. ИИ развивается стремительно!
Через пять дней AxiomProver справилась с 9 из 12 задач ежегодного конкурса Путнама — студенческого вызова, который считается сложнее Международной математической олимпиады. Последнюю языковые модели от Google DeepMind и OpenAI успешно прошли несколько месяцев назад.
В X успех поздравили крупные фигуры: Джефф Дин, главный ученый Google DeepMind, и Томас Вольф, сооснователь Hugging Face. В комментариях снова разгорелись споры. Некоторые отметили: олимпиада требует креативности, а Путнам проверяет знания — что трудно студентам, но проще моделям, обученным на интернете.
Оценивать достижения Axiom нужно не по соцсетям. Победы в конкурсах — лишь начало. Чтобы понять, насколько языковые модели сильны в математике, придется глубоко разобрать, как именно они решают сложные (для людей) задачи.