ARC-AGI-3 выявил три системные ошибки ИИ-моделей

Фонд ARC Prize разобрал 160 игровых сессий GPT-5.5 от OpenAI и Opus 4.7 от Anthropic на бенчмарке ARC-AGI-3. Выяснились три повторяющихся паттерна ошибок, которые не дают моделям перевалить за 1%.

Обычные бенчмарки ИИ фиксируют только успех или провал. Фонд ARC Prize пошёл дальше: эксперты изучили 160 повторов и трассы рассуждений от GPT-5.5 и Opus 4.7 в интерактивных мирах ARC-AGI-3.

Бенчмарк, представленный в конце марта 2026 года, проверяет ИИ-агентов в пошаговых игровых окружениях. В отличие от прошлых версий с простым распознаванием паттернов, здесь системы сами осваивают пространство, выдвигают идеи и реализуют стратегии без подсказок.

Каждая из протестированных frontier-моделей набирает меньше 1%, хотя люди справляются без подготовки. Последние тесты подтвердили тенденцию: GPT-5.5 достигает 0.43% при расходе около $10 000, Opus 4.7 — всего 0.18%.

Лидерборд ARC-AGI-3: график с процентом успеха по вертикали и стоимостью в долларах по горизонтали. Все frontier-модели ниже 0.6% при расходах от $1000 до $10 000. GPT-5.5 показывает 0.4% за $10 000. — Ни одна frontier-модель не пробила планку в 1% на лидерборде ARC-AGI-3. GPT-5.5 на первом месте с 0.4% за примерно $10 000.

По мнению создателей бенчмарка, куда интереснее причины неудач. Записанные трассы рассуждений позволяют отследить, где модель придумала гипотезу, отбросила верную или застряла на ложной.

Модели улавливают детали, но теряют общую картину

Анализ выявил три общих паттерна ошибок у обеих моделей, хоть и с разными акцентами. Самый частый: системы замечают локальные эффекты, но не строят из них coherentную модель мира. Например, модель видит, что действие вращает объект, однако не понимает, как поворот влияет на сторону для новой заливки и зачем нужно выравнивать перед следующим шагом.

В игре cd82 Opus 4.7 уже на четвёртом ходу разобрался, что ACTION3 вращает контейнер. На шестом осознал, что ACTION5 заливает краску. Однако так и не сложил это в план: выровнять ведро и окунуть, чтобы воссоздать цель в левом верхнем углу.

Скриншот из игры cd82: трасса рассуждений Opus 4.7 показывает понимание поворота контейнера ACTION3, но отсутствие связи с механикой заливки. — Opus 4.7 фиксирует поворот объектов ACTION3, но не разбирается в основной механике игры.

Похожий случай в cn04: Opus на 23-м шаге нашёл верное сочетание поворот-перемещение, но переключился на неверную цель и начал отслеживать несуществующую шкалу прогресса.

Данные обучения провоцируют ложные аналогии

Второй паттерн: модели путают незнакомые миры с играми из тренировочных данных. В сессиях часто мелькали Tetris, Frogger, Sokoban, Breakout, Pong или Boulder Dash.

Визуальное сходство разрастается в целую теорию геймплея, и действия тратятся впустую. GPT-5.5, к примеру, принял окружение ls20 за Breakout, хотя там шли комбинации ключей.

«Может, это как 'Breakout' — кирпичи сверху, платформа снизу. Центральный объект — шарик», — отметила модель в трассе рассуждений. Эта безосновательная идея обнулила шансы на успех — человек, знающий Breakout, такой ошибки не допустил бы.

Скриншот из ls20: GPT-5.5 трактует окружение как аркадный Breakout с кирпичами и платформой. — GPT-5.5 принимает окружение ls20 за аркадный Breakout.

Прохождение уровня не равно пониманию игры

Третий паттерн, возможно, самый серьёзный: даже решенный уровень не даёт глубокого понимания, поскольку модель не проверяет, почему стратегия сработала.

В ka59 Opus прошёл уровень 1 за 37 действий на основе неверной идеи: клик телепортирует персонажа. На деле требовалось совпадение форм и толкание. Уровень удался случайно из-за простой структуры.

Успех укрепил веру в телепортацию, и на втором уровне модель перешла к «кликать по целям для заполнения». От ошибки не отошла.

Анимация из ka59: Opus 4.7 зацикливается на кликах после ложной теории, подтверждённой успехом на первом уровне. — Opus 4.7 застревает в цикле кликов на ka59 после того, как неверная теория сработала на первом уровне.

В ar25 повторился сценарий: Opus решил уровень 1 с верным выводом о зеркальном движении и заметил подвижную ось на втором. Вместо развития идеи модель ушла в галлюцинации — «пробивать дыры» или зеркалить объекты. Правильный путь утонул в ложных гипотезах.

В обоих примерах отсутствие анализа успеха переносит заблуждения на следующие уровни.

Opus цепляется за неверные идеи, GPT-5.5 не доводит верные до конца

Opus 4.7 быстрее схватывает механики — в ar25 сразу увидел зеркало и решил уровень 1. Но агрессивно фиксируется на ложных правилах и не отпускает. В cn04 придумал теорию прогресса и конверсии, тратя ранние ходы на бесцельные клики в этой схеме.

GPT-5.5 страдает обратным: генерирует больше идей, чаще попадает в верную, но не превращает в план действий. В ar25 разглядел зеркало, однако раздувал варианты — Tetris, Frogger, Pong, Tower of Hanoi — вместо закрепления. Увидел путь, но не пошёл по нему.

«Разница в сжатии. Opus сжал наблюдения в уверенную, но ошибочную теорию. GPT-5.5 с сжатием справился плохо», — пишет Грег Камрадт из фонда ARC Prize.

Паттерны ошибок выходят за рамки бенчмарков

Фонд ARC Prize считает эти паттерны ключевыми для реальных ИИ-агентов. Каждое из 135 окружений решили как минимум два человека без тренировки.

Сложность для моделей та же, что в рабочих сценариях: освоение неизвестного, теория, тесты, корректировка. Будь то новый сайт, внутренний инструмент или API без документации.

«Скоринг показывает достижения модели. Повторы — насколько рассуждения обобщаются», — отмечает Камрадт. Фонд продолжит проверять все крупные релизы на ARC-AGI-3.

Другие исследования подтверждают выводы

Анализ укрепит критиков, годами твердящих: большие языковые модели — продвинутые матчеры паттернов без настоящего понимания. Когда GPT-5.5 сразу лепит ярлык Breakout на неизвестное, это демонстрирует интерполяцию между шаблонами вместо абстрактных правил. А успех Opus 4.7 на уровне по случайности с последующим закреплением ложной теории вписывается в тезис об отсутствии причинных моделей мира — только статистические корреляции.

Похожие выводы в свежих работах. Исследователи Apple доказали: модели рассуждений не только лажают при росте сложности в управляемых пазлах, но и хуже думают. Масштабный анализ когнитивщиков по 171 000 трассам показал: на трудных задачах языковые модели скатываются к базовым приёмам вместо настоящих размышлений. Медицинское исследование выявило: даже модели вроде DeepSeek-R1 и o3-mini терпят крах на перефразированных вопросах, подтверждая матчинг паттернов вместо понимания.

Последние ИИ-модели совершают три системные ошибки в рассуждениях

Модели улавливают детали, но теряют общую картину

Данные обучения провоцируют ложные аналогии

Прохождение уровня не равно пониманию игры

Opus цепляется за неверные идеи, GPT-5.5 не доводит верные до конца

Паттерны ошибок выходят за рамки бенчмарков

Другие исследования подтверждают выводы

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Топ-5 CLI-инструментов для агентного кодирования

Сейчас в тренде