Anthropic исправила три проблемы Claude Code

Anthropic выявила три причины падения качества Claude Code: снижение усилий на рассуждение, баг кэширования и ограничения промта. Компания исправила проблемы, ввела строгие тесты и сбросила лимиты для пользователей. Такие инциденты отражают общие вызовы индустрии ИИ из-за дефицита вычислений и изменений в инструментах.

Пользователи заметили падение качества в Claude Code. Anthropic выявила три причины ошибок и устранила их. Компания вводит более жесткие меры контроля качества.

За последний месяц все больше пользователей жаловались, что инструмент для программирования Claude Code от Anthropic выдает заметно худшие результаты. В подробном разборе причин компания описала три независимых изменения в Claude Code, Claude Agent SDK и Claude Cowork, которые вместе привели к общему снижению качества. API при этом не затронули, уточняет Anthropic. Все проблемы устранили 20 апреля в версии 2.1.116.

Снижение усилий на рассуждение, ошибки кэширования и ограничения в промтах стали причинами сбоев

Первая проблема возникла 4 марта: Anthropic уменьшила стандартный уровень усилий на рассуждение с "high" до "medium", чтобы убрать сильные задержки в высоком режиме. Внутренние тесты показали, что средний режим дает лишь немного хуже результаты на большинстве заданий, зато сильно ускоряет работу. Но на практике пользователи сразу почувствовали, что Claude Code стал менее умным. 7 апреля изменение полностью отменили.

Вторая неисправность случилась из-за бага в оптимизации кэширования, выпущенной 26 марта. Идея была в том, чтобы удалять старые разделы рассуждений через час бездействия и таким образом снижать задержки при возобновлении сессии. Из-за ошибки в коде история рассуждений стиралась на каждом новом шаге.

Claude постепенно терял контекст своих решений. Пользователи видели забывчивость, повторы и странный выбор инструментов. К тому же пропуски в кэше быстрее расходовали лимиты использования. Anthropic отметила, что баг прошел незамеченным в проверках и починили его только 10 апреля.

Третья проблема появилась 16 апреля: инструкция в системном промте, чтобы уменьшить излишнюю многословность Opus 4.7. Там было: "Length limits: keep text between tool calls to ≤25 words. Keep final responses to ≤100 words unless the task requires more detail." Позже более полные тесты выявили падение качества на 3 процента. Изменение отменили 20 апреля.

Anthropic ужесточает контроль качества

Поскольку каждое изменение задевало разные группы пользователей в разное время, эффект получился размытым и постепенным, его сначала сложно было отличить от обычных колебаний.

Дальше Anthropic планирует, чтобы больше сотрудников работали с точной публичной сборкой Claude Code, а не с внутренними тестами. Любое изменение системного промта теперь пройдет расширенный набор тестов, адаптированный под модель.

Для правок, которые могут повлиять на интеллект, введут периоды выжидания и поэтапный запуск. В качестве компенсации лимиты использования сбросили всем подписчикам.

Anthropic запустила аккаунт в X @ClaudeDevs, чтобы прозрачнее сообщать о решениях по продукту.

Ощущение падения качества повторяется в индустрии ИИ

Пользователи уже не раз жаловались на ухудшение ИИ. Во второй половине 2023 года обвиняли OpenAI, что GPT-4 стал "глупее" со временем. OpenAI отвергла значимые изменения в моделях после релиза.

С похожими претензиями уже сталкивался Claude — там винили сбои в инфраструктуре. Этот случай подтверждает тенденцию: то, что кажется регрессом модели, часто вызвано правками в инструментах или инфраструктуре, а не в самих моделях. В реальном использовании оболочки вроде Claude Code помогают моделям, направляя их способности и давая нужный контекст. Когда оболочка ломается, эффект обратный. А добавьте корректировки от поставщиков, как у Anthropic с глубиной рассуждений, — и проблемы усиливаются.

Такие правки все чаще связаны с дефицитом вычислительных мощностей в индустрии. Доступность API Anthropic недавно держалась на 98,95 процента — далеко от стандарта облачных сервисов в 99,99 процента. Часовые цены на GPU на спотовом рынке выросли на 48 процентов по индексу Ornn Compute Price Index, аналитики Bank of America ждут превышения спроса над предложением минимум до 2029 года. OpenAI закрывает приложение для генерации видео Sora, чтобы освободить ресурсы для инструментов кодинга и корпоративных продуктов. GitHub приостановил новые регистрации на несколько тарифов Copilot.

Это давление меняет и модели ценообразования. Глава по росту в Anthropic признал недавно, что тарифы Pro и Max создавали до появления ресурсоемких инструментов вроде Claude Code, и они не подходят для сегодняшних задач с агентами. Компания даже ненадолго убрала доступ к Claude Code для новых подписчиков Pro, но вернула после жалоб.

OpenAI же удвоила цены API с GPT-5.5 по сравнению с предыдущей версией: 5 долларов за миллион входных токенов и 30 долларов за миллион выходных. Эпоха дешевых фиксированных тарифов на самые мощные инструменты ИИ с агентами подходит к концу.

Anthropic подтвердила проблемы Claude Code и обещает строгий контроль качества

Снижение усилий на рассуждение, ошибки кэширования и ограничения в промтах стали причинами сбоев

Anthropic ужесточает контроль качества

Ощущение падения качества повторяется в индустрии ИИ

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде