Соцсети и перехваленный хайп ИИ

Соцсети подогревают чрезмерный энтузиазм вокруг ИИ, как в случае с ложным заявлением о GPT-5, решившей нерешенные задачи Эрдёша. Реальные возможности моделей, вроде поиска литературы, тонут в хайпе, а свежие исследования показывают слабости в медицине и праве. Недавние успехи AxiomProver в задачах Эрдёша и конкурсе Путнама требуют тщательной проверки.

Публичный спор в соцсетях

Демис Хассабис, руководитель Google DeepMind, отреагировал на X тремя словами: «Это позорно».

Он комментировал восторженный пост Себастьяна Бубека, ученого из конкурирующей OpenAI. Тот заявил, что два математика применили новейшую языковую модель GPT-5 и нашли ответы на 10 нерешенных математических задач. «ИИ официально ускоряет науку», — ликовал Бубек.

Давайте разберемся в сути этого конфликта из середины октября. Он ярко показывает текущие проблемы в мире ИИ.

Бубек радовался, что GPT-5 справилась с несколькими загадками, известными как проблемы Эрдёша.

Пол Эрдёш, один из самых плодовитых математиков XX века, оставил после смерти сотни задач. Чтобы отслеживать их статус, Томас Блум из Манчестерского университета в Великобритании создал erdosproblems.com. Сайт содержит свыше 1100 задач, из которых около 430 имеют решения.

Когда Бубек восхвалял прорыв GPT-5, Блум сразу возразил на X: «Это грубое искажение фактов». Он уточнил, что отсутствие решения на сайте не значит, будто задача не решена. Просто ему неизвестно о таком. Математических статей в мире миллионы, и никто их все не читал. А вот GPT-5, вероятно, знакома с ними.

В итоге выяснилось: модель не придумала новые ответы на 10 задач, а просто нашла в сети 10 уже существующих решений, мимо которых прошел Блум. Ошибка!

Из этого вытекают два вывода. Во-первых, громкие заявления о прорывах лучше не озвучивать в соцсетях на эмоциях — сначала проверять.

Во-вторых, способность GPT-5 отыскивать малоизвестные ссылки на чужие работы сама по себе впечатляет. Хайп затмил эту полезную функцию.

Математики с интересом смотрят на языковые модели для анализа огромных массивов существующих результатов, рассказал Франсуа Шартрон, исследователь из стартапа Axiom Math, специализирующегося на применении ИИ в математике.

Другие случаи перехвалы ИИ

Но поиск по литературе кажется скучным по сравнению с настоящими открытиями — особенно для ярых поклонников ИИ в соцсетях. Ошибка Бубека не единственная.

В августе пара математиков доказала, что ни одна языковая модель тогда не могла решить задачу Ю Цумуры №554. Два месяца спустя в соцсетях взорвались сообщения, что GPT-5 справилась. Один комментатор написал: «Момент Ли Седоля для многих профессий близко», имея в виду мастера го, проигравшего ИИ AlphaGo от DeepMind в 2016 году.

Шартрон отметил, что задача Цумуры №554 для математиков — ерунда. «Это уровень студента-бакалавра. Есть привычка преувеличивать всё подряд».

Параллельно появляются взвешенные оценки возможностей языковых моделей. Пока математики спорили в сети о GPT-5, вышли две свежие работы о применении ИИ в медицине и юриспруденции — сферах, где разработчики хвалят свои системы.

Реальность в медицине и праве

В медицине модели ставят некоторые диагнозы, но плохо рекомендуют лечение. В юриспруденции ИИ выдает противоречивые и неверные советы. Авторы заключили: «Доказательства пока далеки от убедительности».

Такие выводы не популярны на X. «Все в возбуждении, общаются без остановки — никто не хочет отстать», — объясняет Шартрон. Здесь ИИ-новости появляются первыми, хвастаются результатами, публично спорят ключевые фигуры вроде Сэма Альтмана, Яна Лекуна и Гэри Маркуса. Трудно уследить — и оторваться.

Пост Бубека стал позором только потому, что промах заметили. Не все ошибки ловят. Без изменений исследователи, инвесторы и энтузиасты будут подогревать друг друга. «Некоторые — ученые, многие нет, но все гики. Грандиозные заявления отлично заходят в этих сетях», — сказал Шартрон.

Свежие успехи Axiom Math

Есть продолжение. Стартап Axiom Math сообщил, что его модель AxiomProver решила две открытые проблемы Эрдёша — №124 и №481. Для молодой компании, основанной пару месяцев назад, это солидно. ИИ развивается стремительно!

Через пять дней AxiomProver справилась с 9 из 12 задач ежегодного конкурса Путнама — студенческого вызова, который считается сложнее Международной математической олимпиады. Последнюю языковые модели от Google DeepMind и OpenAI успешно прошли несколько месяцев назад.

В X успех поздравили крупные фигуры: Джефф Дин, главный ученый Google DeepMind, и Томас Вольф, сооснователь Hugging Face. В комментариях снова разгорелись споры. Некоторые отметили: олимпиада требует креативности, а Путнам проверяет знания — что трудно студентам, но проще моделям, обученным на интернете.

Оценивать достижения Axiom нужно не по соцсетям. Победы в конкурсах — лишь начало. Чтобы понять, насколько языковые модели сильны в математике, придется глубоко разобрать, как именно они решают сложные (для людей) задачи.

Соцсети раздувают хайп вокруг ИИ

Публичный спор в соцсетях

Другие случаи перехвалы ИИ

Реальность в медицине и праве

Свежие успехи Axiom Math

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Как быстро запустить дата-центр? Дайте ему гибкость в энергопотреблении

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Сейчас в тренде