Claude Opus 4.7 от Anthropic лидирует в кодинге на 64.3%

Флагманская модель Anthropic Claude Opus 4.7 добилась серьезных успехов в задачах по программированию. При обучении разработчики целенаправленно уменьшили ряд возможностей в сфере кибербезопасности.

Anthropic представила Claude Opus 4.7 — прямое развитие модели Opus 4.6. Основной акцент сделан на прогрессе в автономном написании кода. На тестовом наборе SWE-bench Pro новая версия набирает 64.3%, обходя 53.4% предшественницы и 57.7% у GPT-5.4 от OpenAI. Впрочем, собственная топовая модель Anthropic Claude Mythos Preview все равно впереди с 77.8%.

Разработчики подчеркивают, что Opus 4.7 точнее следует указаниям из промтов по сравнению с предыдущей версией. Промты, созданные для старых моделей, теперь могут давать непредсказуемые эффекты: новая модель воспринимает инструкции буквально, в отличие от Opus 4.6, которая порой их упрощала или игнорировала частично.

Сравнение показателей Claude Opus 4.7 на бенчмарках SWE-bench Pro

Разрешение изображений выросло втрое для точного анализа визуалов

Claude Opus 4.7 способна обрабатывать изображения с длинной стороной до 2576 пикселей — это примерно 3.75 мегапикселя, в три раза больше, чем у прошлых моделей Claude. Изменение внедрено на уровне самой модели, а не через настройки API: фото автоматически анализируются в повышенном качестве, хотя и тратят больше токенов. Пользователям, которым не нужна повышенная детализация, можно сжимать изображения заранее.

Anthropic считает это ключевым шагом для агентов, работающих с компьютером, — они лучше читают перегруженные скриншоты и извлекают данные из запутанных схем. На тесте Document Reasoning (OfficeQA Pro) точность достигла 80.6%, против 57.1% у Opus 4.6. Значительный рост отмечен также в биомолекулярном мышлении и визуальной навигации по экранам (ScreenSpot-Pro).

Anthropic сознательно ограничила киберспособности модели

Особенность релиза — подход Anthropic к возможностям модели в кибербезопасности. Во время экспериментов при обучении компания выборочно снижала отдельные киберфункции. Новые защитные механизмы автоматически распознают и блокируют запросы, намекающие на запрещенные или рискованные применения в этой области.

Контекст — недавний Project Glasswing, где Anthropic взвесила риски и плюсы ИИ для кибербезопасности. Компания решила не выпускать полностью мощную Mythos Preview, а сначала проверить свежие защиты на менее продвинутых моделях. Opus 4.7 стала первым примером такого подхода.

Исследователи в области безопасности, желающие применять модель для пентеста или красных команд, могут подать заявку на Cyber Verification Program.

Галлюцинации сократились, но остаются

В system card Anthropic различает два вида галлюцинаций: фактические — ложные утверждения о реальности, вроде выдуманных цитат или неверных данных, — и входные, когда модель предполагает наличие инструмента или файла, которого нет.

По фактическим галлюцинациям Opus 4.7 не уступает или превосходит Opus 4.6 на четырех тестах, но отстает от Mythos Preview. Разница в основном из-за лучшей работы топ-модели с редкими фактами, а не из-за ошибок Opus 4.7.

С входными галлюцинациями Opus 4.7 показывает минимальный уровень среди протестированных моделей при запросах недоступных инструментов. При отсутствии контекста она приближается к Mythos Preview и сильно опережает старые версии. Anthropic признает, что тесты под инструменты адаптировали под слабости Opus 4.6, что влияет на сравнение.

При вопросах на основе вымышленных фактов Opus 4.7 работает на уровне Opus 4.6 и хуже Mythos Preview. Под давлением — когда промты пытаются заставить модель противоречить себе — она честнее предшественницы, но уступает в твердости Mythos Preview.

Результаты по выравниванию неоднозначны

В целом безопасность Opus 4.7 близка к Opus 4.6: низкие показатели обмана, подхалимства и помощи в злоупотреблениях. Модель лучше сопротивляется атакам через инъекцию промтов.

Проблема из прошлых Claude частично сохранилась: отказ помогать в законных исследованиях по безопасности ИИ. По system card, Opus 4.7 отказывает в 33% симулированных задач по безопасности — меньше, чем 88% у Opus 4.6, но все равно немало.

Цены за токен те же, но реальные расходы могут вырасти

Стоимость осталась $5 за миллион входных токенов и $25 за миллион выходных. Однако новый токенизатор может преобразовывать тот же текст в 1.35 раза больше токенов. Плюс модель генерирует больше вывода на высоких уровнях усилий. В итоге цена за запрос может существенно подскочить, несмотря на неизменные тарифы за токен.

График потребления токенов Claude Opus 4.7

Появился уровень усилий "xhigh" между "high" и "max". В Claude Code добавлена команда "/ultrareview" для глубоких ревью кода и расширенный "Auto Mode" для пользователей Max, где модель сама принимает решения. Opus 4.7 доступна через Claude API, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry.

Подробности и советы по переходу — в руководстве по миграции на Opus 4.7.

Claude Opus 4.7 от Anthropic прорвалась в кодинге с ограничениями в кибербезопасности

Разрешение изображений выросло втрое для точного анализа визуалов

Anthropic сознательно ограничила киберспособности модели

Галлюцинации сократились, но остаются

Результаты по выравниванию неоднозначны

Цены за токен те же, но реальные расходы могут вырасти

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Разбор 10 агентных проектов GitHub для форкинга

Топ-7 планов для вайб-кодинга

Краткий курс по ComfyUI для новичков

Топ-7 открытых моделей OCR

Сейчас в тренде