В понедельник компания Anthropic представила Opus 4.5 — свежую версию своей основной модели. Это завершает линейку моделей версии 4.5: ранее вышли Sonnet 4.5 в сентябре и Haiku 4.5 в октябре.
Как и ожидалось, Opus 4.5 показывает выдающиеся результаты на множестве тестов. Среди них — бенчмарки по программированию вроде SWE-Bench и Terminal-bench, задачи с использованием инструментов, такие как tau2-bench и MCP Atlas, а также общие тесты на решение проблем, включая ARC-AGI 2 и GPQA Diamond.
Особо выделяется то, что Opus 4.5 первой преодолела отметку в 80 процентов на верифицированной версии SWE-Bench — это один из самых уважаемых тестов по кодированию.
Anthropic акцентировала внимание на навыках Opus в работе с компьютером и электронными таблицами. Чтобы продемонстрировать эти возможности, компания запустила несколько сопутствующих продуктов. Параллельно с Opus 4.5 стали доступнее для большего числа пользователей Claude for Chrome и Claude for Excel — они раньше тестировались в пилотном режиме. Расширение для Chrome теперь открыто для всех с подпиской Max, а версия, ориентированная на Excel, — для Max, Team и Enterprise.
Opus 4.5 получила улучшения в обработке памяти для задач с длинным контекстом. Это потребовало серьезных доработок в том, как модель управляет своей памятью.
«Мы доработали общее качество длинного контекста прямо во время обучения Opus 4.5, но одного большего окна контекста недостаточно», — объяснила Дианн На Пенн, руководитель направления продуктового менеджмента по исследованиям в Anthropic, в беседе с TechCrunch. «Ключевой момент — уметь выбирать правильные детали для запоминания, это дополняет просто увеличенное окно.»
Такие доработки открыли путь к долгожданной функции «бесконечного чата» для платных пользователей Claude. Теперь беседы не прерываются, даже если модель достигает предела окна контекста. Вместо этого она незаметно сжимает память, не уведомляя пользователя.
Большинство нововведений рассчитано на сценарии с агентами, в частности на ситуации, где Opus выступает главным агентом, координирующим группу подагентов на базе Haiku. Для таких задач нужна надежная рабочая память, и именно здесь улучшения, о которых говорила Пенн, дают наибольший эффект.
«В таких случаях основы вроде памяти выходят на первый план», — подчеркивает Пенн. «Claude должен уметь разбираться в больших кодовых базах и документах, а также понимать, когда нужно вернуться назад и все перепроверить.»
Opus 4.5 придется конкурировать с другими передовыми моделями, которые недавно вышли на рынок, — в первую очередь с GPT 5.1 от OpenAI (релиз 12 ноября) и Gemini 3 от Google (18 ноября).