Фонд ARC Prize разобрал 160 игровых сессий GPT-5.5 от OpenAI и Opus 4.7 от Anthropic на бенчмарке ARC-AGI-3. Выяснились три повторяющихся паттерна ошибок, которые не дают моделям перевалить за 1%.
Обычные бенчмарки ИИ фиксируют только успех или провал. Фонд ARC Prize пошёл дальше: эксперты изучили 160 повторов и трассы рассуждений от GPT-5.5 и Opus 4.7 в интерактивных мирах ARC-AGI-3.
Бенчмарк, представленный в конце марта 2026 года, проверяет ИИ-агентов в пошаговых игровых окружениях. В отличие от прошлых версий с простым распознаванием паттернов, здесь системы сами осваивают пространство, выдвигают идеи и реализуют стратегии без подсказок.
Каждая из протестированных frontier-моделей набирает меньше 1%, хотя люди справляются без подготовки. Последние тесты подтвердили тенденцию: GPT-5.5 достигает 0.43% при расходе около $10 000, Opus 4.7 — всего 0.18%.

По мнению создателей бенчмарка, куда интереснее причины неудач. Записанные трассы рассуждений позволяют отследить, где модель придумала гипотезу, отбросила верную или застряла на ложной.
Модели улавливают детали, но теряют общую картину
Анализ выявил три общих паттерна ошибок у обеих моделей, хоть и с разными акцентами. Самый частый: системы замечают локальные эффекты, но не строят из них coherentную модель мира. Например, модель видит, что действие вращает объект, однако не понимает, как поворот влияет на сторону для новой заливки и зачем нужно выравнивать перед следующим шагом.
В игре cd82 Opus 4.7 уже на четвёртом ходу разобрался, что ACTION3 вращает контейнер. На шестом осознал, что ACTION5 заливает краску. Однако так и не сложил это в план: выровнять ведро и окунуть, чтобы воссоздать цель в левом верхнем углу.

Похожий случай в cn04: Opus на 23-м шаге нашёл верное сочетание поворот-перемещение, но переключился на неверную цель и начал отслеживать несуществующую шкалу прогресса.
Данные обучения провоцируют ложные аналогии
Второй паттерн: модели путают незнакомые миры с играми из тренировочных данных. В сессиях часто мелькали Tetris, Frogger, Sokoban, Breakout, Pong или Boulder Dash.
Визуальное сходство разрастается в целую теорию геймплея, и действия тратятся впустую. GPT-5.5, к примеру, принял окружение ls20 за Breakout, хотя там шли комбинации ключей.
«Может, это как 'Breakout' — кирпичи сверху, платформа снизу. Центральный объект — шарик», — отметила модель в трассе рассуждений. Эта безосновательная идея обнулила шансы на успех — человек, знающий Breakout, такой ошибки не допустил бы.

Прохождение уровня не равно пониманию игры
Третий паттерн, возможно, самый серьёзный: даже решенный уровень не даёт глубокого понимания, поскольку модель не проверяет, почему стратегия сработала.
В ka59 Opus прошёл уровень 1 за 37 действий на основе неверной идеи: клик телепортирует персонажа. На деле требовалось совпадение форм и толкание. Уровень удался случайно из-за простой структуры.
Успех укрепил веру в телепортацию, и на втором уровне модель перешла к «кликать по целям для заполнения». От ошибки не отошла.

В ar25 повторился сценарий: Opus решил уровень 1 с верным выводом о зеркальном движении и заметил подвижную ось на втором. Вместо развития идеи модель ушла в галлюцинации — «пробивать дыры» или зеркалить объекты. Правильный путь утонул в ложных гипотезах.
В обоих примерах отсутствие анализа успеха переносит заблуждения на следующие уровни.
Opus цепляется за неверные идеи, GPT-5.5 не доводит верные до конца
Opus 4.7 быстрее схватывает механики — в ar25 сразу увидел зеркало и решил уровень 1. Но агрессивно фиксируется на ложных правилах и не отпускает. В cn04 придумал теорию прогресса и конверсии, тратя ранние ходы на бесцельные клики в этой схеме.
GPT-5.5 страдает обратным: генерирует больше идей, чаще попадает в верную, но не превращает в план действий. В ar25 разглядел зеркало, однако раздувал варианты — Tetris, Frogger, Pong, Tower of Hanoi — вместо закрепления. Увидел путь, но не пошёл по нему.
«Разница в сжатии. Opus сжал наблюдения в уверенную, но ошибочную теорию. GPT-5.5 с сжатием справился плохо», — пишет Грег Камрадт из фонда ARC Prize.
Паттерны ошибок выходят за рамки бенчмарков
Фонд ARC Prize считает эти паттерны ключевыми для реальных ИИ-агентов. Каждое из 135 окружений решили как минимум два человека без тренировки.
Сложность для моделей та же, что в рабочих сценариях: освоение неизвестного, теория, тесты, корректировка. Будь то новый сайт, внутренний инструмент или API без документации.
«Скоринг показывает достижения модели. Повторы — насколько рассуждения обобщаются», — отмечает Камрадт. Фонд продолжит проверять все крупные релизы на ARC-AGI-3.
Другие исследования подтверждают выводы
Анализ укрепит критиков, годами твердящих: большие языковые модели — продвинутые матчеры паттернов без настоящего понимания. Когда GPT-5.5 сразу лепит ярлык Breakout на неизвестное, это демонстрирует интерполяцию между шаблонами вместо абстрактных правил. А успех Opus 4.7 на уровне по случайности с последующим закреплением ложной теории вписывается в тезис об отсутствии причинных моделей мира — только статистические корреляции.
Похожие выводы в свежих работах. Исследователи Apple доказали: модели рассуждений не только лажают при росте сложности в управляемых пазлах, но и хуже думают. Масштабный анализ когнитивщиков по 171 000 трассам показал: на трудных задачах языковые модели скатываются к базовым приёмам вместо настоящих размышлений. Медицинское исследование выявило: даже модели вроде DeepSeek-R1 и o3-mini терпят крах на перефразированных вопросах, подтверждая матчинг паттернов вместо понимания.