Anthropic представила Claude Opus 4.6, обновленную флагманскую модель. Впервые серия Opus поддерживает контекстное окно в один миллион токенов. Разработчики уверены: теперь поиск нужных данных в объемных текстах проходит точнее, чем раньше.
Claude Opus 4.6 стал апгрейдом предшественника Opus 4.5. Контекстное окно на миллион токенов уже доступно в бета-версии. Но большие окна часто ухудшают качество: чем больше данных, тем хуже результаты. Ученые называют это 'гниением контекста'. Anthropic борется с проблемой за счет доработок модели и новой функции 'Compaction' — она сама сжимает устаревший контекст, не давая окну переполниться.
В тесте MRCR v2, где проверяют умение вылавливать скрытые данные из огромных текстов, Opus 4.6 набирает 76% при миллионе токенов. А компактная Sonnet 4.5 на тех же условиях выдает всего 18,5%.
Модель работает на claude.ai, через API и на крупных облачных сервисах. Обычные тарифы: 5 долларов за миллион входных токенов и 25 долларов за миллион выходных. Если промт превышает 200 тысяч токенов, цены растут — 10 долларов за вход и 37,50 за выход на миллион.
Opus 4.6 обходит GPT-5.2 в тестах на знания
В бенчмарке GDPval-AA по задачам из финансов и юриспруденции Opus 4.6 получила Elo 1606. Это на 144 пункта лучше GPT-5.2 от OpenAI (1462) и на 190 выше Opus 4.5 (1416).
На Humanity's Last Exam — тесте на мышление по разным наукам — модель показывает 53,1% с инструментами, обходя всех соперников. В агентском кодинг-бенчмарке Terminal-Bench 2.0 результат 65,4%. А в BrowseComp, где ищут редкую информацию в сети, — 84%. Конечно, тесты дают лишь общее представление о реальных возможностях.
Anthropic усилила навыки модели в программировании. Opus 4.6 лучше планирует, дольше держит автономные сессии и надежнее работает с крупными кодовыми базами. В SWE-bench без доработки промта она не превосходит Opus 4.5. Зато с кастомным промтом набирает чуть больше — 81,42%.
Модель иногда слишком углубляется в простые задания. Opus 4.6 чаще перепроверяет выводы — это перемышление, из-за которого растут затраты и время на ответы. Для легких задач Anthropic советует снизить параметр усилий с 'high' до 'medium'.
Новые функции API и интеграции с офисом
Anthropic добавила в API несколько опций. 'Adaptive Thinking' позволяет модели самой решать, когда запускать глубокий анализ. 'Compaction' сжимает старый контекст на подлете к лимиту. Максимум на выходе вырос до 128 тысяч токенов. В Claude Code появилась 'Agent Teams' — несколько ИИ-агентов решают задачи параллельно. Функция в стадии research preview.
Для офисных пользователей обновили интеграцию с Excel и запустили PowerPoint-интеграцию в research preview. В Excel Claude теперь разбирает неструктурированные данные, подбирает структуру и вносит многоуровневые правки за раз.
Уязвимость к инъекциям промтов никуда не делась
Anthropic подчеркивает: прирост производительности не ослабил защиту. Автоматические аудиты показывают низкий уровень вредных действий вроде обмана или помощи в злоупотреблениях. Но к косвенным инъекциям промтов Opus 4.6 чуть уязвимее предшественника — это тревожно для агентских приложений.
Интересно, что результаты по прямым инъекциям больше не публикуют. Раньше Opus 4.5 лидировала в этой слабой компании. Компания объясняет: прямые атаки требуют злого пользователя, а фокус на внешних угрозах, крадущих intent. Получается, модель может быть менее защищена, чем кажется. Подробности в system card.