Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

ИИ-агенты преуспевают в разработке ПО, но в других сферах их почти нет — Anthropic

Anthropic изучила миллионы взаимодействий и выявила рост автономности ИИ-агентов, где разработка ПО занимает почти 50% активности, а другие отрасли сильно отстают. Опытные пользователи доверяют агентам больше, Claude Code сам чаще запрашивает помощь для безопасности. Компания видит в этом deployment overhang и рекомендует мониторинг без жестких ограничений.

3 часа назад
4 мин
15

Anthropic изучила миллионы взаимодействий человека и агента, выявив рекордную автономность ИИ-агентов. Однако есть нюанс: разработка софта составляет почти половину всей агентной активности, а остальные отрасли только начинают пробовать.

Компания провела масштабный анализ миллионов реальных взаимодействий с агентом для кодирования Claude Code и публичным API. Данные подтверждают рост независимости агентов, хотя их применение сосредоточено в узкой нише.

Разработка ПО занимает около 50% всех вызовов инструментов через публичный API, следует из отчета. За ней с большим отрывом идут бизнес-аналитика, поддержка клиентов, продажи, финансы и электронная коммерция — ни одна не превышает нескольких процентов трафика.

Anthropic называет это начальными этапами распространения агентов. Программисты первыми развернули такие инструменты в больших масштабах, другие сектора пока присматриваются.

Claude Code дольше работает сам, хотя пользователи не раскрывают его возможности полностью

Один из ключевых выводов — продолжительность автономной работы Claude Code без участия человека. Медиана держится на уровне 45 секунд за шаг и остается стабильной, зато 99,9-й перцентиль почти удвоился с октября 2025 по январь 2026 года: с менее 25 минут до свыше 45 минут.

Рост наблюдается независимо от версий моделей. Если бы дело было только в улучшении моделей, ожидались бы резкие скачки с каждым обновлением, отмечает Anthropic. Постепенный подъем указывает на комплекс причин: пользователи набираются опыта и доверяют больше, берутся за сложные задачи, а продукт эволюционирует.

В этом смысле Anthropic говорит о "deployment overhang": возможности моделей по автономности опережают практику. OpenAI и CEO Microsoft Наделла развивают похожую мысль, подчеркивая, что модели уже превосходят ожидания пользователей. Anthropic ссылается на оценку METR: Claude Opus 4.5 справляется с задачами на 50% успеха, на которые человеку нужно почти пять часов.

Пользователи с опытом дают больше воли, но вмешиваются ненамного чаще

Чем опытнее человек, тем шире он отпускает Claude Code. Новички полностью одобряют автономию в 20% сессий, после 750 сессий этот показатель переваливает за 40%.

При этом частота прерываний слегка растет: у новичков около 5% шагов, у ветеранов — примерно 9%. Anthropic трактует это как смену подхода: начинающие проверяют каждый шаг вручную и редко вмешиваются на лету, а профи запускают процесс целиком и корректируют ошибки. Оба уровня низкие — даже опытные не трогают более 90% шагов.

Та же картина на публичном API. Для простых операций вроде правки строки кода человеческий контроль есть в 87% вызовов инструментов. Для хитрых дел вроде поиска zero-day уязвимостей или создания компилятора — уже 67%.

Claude сам себя чаще притормаживает, чем его останавливают люди

Claude Code во время сложных задач сам чаще делает паузы для вопросов, чем его прерывают пользователи. На самых трудных заданиях он обращается за помощью более чем вдвое чаще, чем на легких.

Почему Claude сам останавливается?Почему люди прерывают Claude?
Чтобы предложить выбор подходов (35%)Чтобы дать недостающий технический контекст или исправления (32%)
Чтобы собрать диагностику или результаты тестов (21%)Claude тормозил, зависал или был избыточным (17%)
Чтобы уточнить неясные или неполные запросы (13%)Получили достаточно помощи, чтобы продолжить самостоятельно (7%)
Чтобы запросить недостающие учетные данные, токены или доступ (12%)Решили сделать следующий шаг сами (например, ручное тестирование, деплой, коммит) (7%)
Чтобы получить одобрение перед действием (11%)Передумали по требованиям в процессе (5%)

Anthropic расценивает это как ключевой механизм безопасности: обучение моделей замечать свою неуверенность и запрашивать подтверждение дополняет внешние меры вроде систем авторизации и ручных одобрений.

В будущем агенты с высоким уровнем риска и автономии станут обычнее, особенно когда выйдут за пределы разработки софта в более ответственные области.

Разработчикам моделей, создателям продуктов и регуляторам Anthropic советует усиливать мониторинг после развертывания, но не навязывать жесткие шаблоны взаимодействий. Обязательное ручное одобрение каждого шага только усложняет процесс, не повышая защиту, считает компания.