Anthropic снизила прогнозы ИИ: реальные сбои Claude

Первое тщательное изучение сбоев Claude от Anthropic выявило закономерность: чем сложнее задача, тем чаще модель ошибается. Компания скорректировала свои оценки продуктивности примерно вдвое.

Anthropic представила четвертый "Economic Index Report" – это первое всестороннее исследование реального успеха Claude в разных задачах. Анализ основан на миллионе бесед в Claude.ai и миллионе транскриптов API-запросов за ноябрь 2025 года, сразу перед запуском Opus 4.5.

В центре отчета – пять новых "экономических примитивов": базовые показатели, которые Claude вычисляет из обезличенных транскриптов. Они отражают сложность задачи (сколько времени уйдет человеку без ИИ), уровень образования для понимания входных и выходных данных, тип использования (работа, учеба или личные дела), степень самостоятельности ИИ и успешность выполнения.

Сложные задачи дают больше пользы, но и сбоев в них больше

Данные четко показывают компромисс: сложные задачи экономят больше времени, однако Claude с ними справляется реже. В отчете указано, что для API-запросов короче часа успех достигает около 60%, а для задач длиннее пяти часов – падает до 45%. Пороговый уровень в 50% приходится примерно на 3,5 часа работы.

С Claude.ai картина иная: успех снижается гораздо медленнее по мере роста длительности задач. По оценкам Anthropic, модель не опустится ниже 50% даже на 19 часах. Исследователи объясняют разницу многотурным характером бесед, где пользователи могут корректировать и уточнять на ходу.

Оценки продуктивности сократились вдвое

Новые данные об успехе вынудили Anthropic пересмотреть прежние прогнозы. Ранее компания оценивала, что широкое внедрение ИИ добавит 1,8 процентных пункта к ежегодному росту производительности труда в США. С учетом реальных сбоев эта цифра снижается до 1,0–1,2 пункта.

Если учесть узкие места – ключевые задачи в работе, которые ИИ не ускоряет, – влияние падает еще ниже, до 0,6–0,8 пункта. Тем не менее Anthropic подчеркивает: даже один пункт в год за десять лет вернет рост продуктивности в США к уровням конца 1990-х – начала 2000-х. Плюс компания ждет от будущих моделей лучших показателей успеха.

Внедрение ИИ может "упростить" некоторые профессии

Важный вывод касается влияния на рабочие роли. Claude чаще применяют для задач, требующих высокого образования – в среднем 14,4 года обучения (примерно уровень младшего специалиста), против 13,2 года для всех задач в экономике США.

Когда ИИ берет на себя такую работу, людям достаются менее квалифицированные обязанности – чистый эффект "упрощения". Anthropic приводит примеры: агенты по туризму утратят планирование поездок, сосредоточившись на билетах и оплатах. А управляющие недвижимостью, напротив, "повысятся" – бухгалтерия уйдет к ИИ, останутся переговоры по контрактам и работа со стейкхолдерами.

Качественные запросы дают качественные ответы

Анализ выявил сильную связь между уровнем образования в запросах пользователей и сложностью ответов Claude. Anthropic оценивает оба аспекта: сколько лет обучения нужно для понимания промта и сколько – для ответа модели. Коэффициент корреляции превышает 0,92 – как на уровне стран, так и по штатам США.

На практике это значит: детальные, технически точные запросы приводят к глубоким ответам. Простые вопросы получают простые отклики. Claude подстраивает стиль под входные данные. По мнению Anthropic, это имеет глобальные последствия: страны с образованным населением выиграют от ИИ сильнее, даже при равном уровне внедрения, – их пользователи лучше раскрывают потенциал моделей грамотными промтами.

Пользователи возвращаются к совместной работе вместо полной передачи задач

С августа 2025 года паттерны использования Claude.ai изменились. Anthropic различает два подхода: "дополнение", когда люди сотрудничают с Claude (дорабатывают задачи вместе, объясняют идеи или просят отзыв), и "автоматизация", когда задачу полностью делегируют модели с минимумом уточнений.

В августе 2025 автоматизация впервые обогнала дополнение – знак растущего доверия к самостоятельности Claude. Сейчас тренд развернулся: доля дополнения выросла до 52%, автоматизации упала до 45%. Директивных бесед, где задача дается разово без доработок, стало меньше – с 39% до 32%.

Anthropic связывает сдвиг с обновлениями вроде создания файлов, постоянной памяти и настраиваемых "навыков". Эти функции поддерживают сложные процессы, где пользователи остаются вовлечены. Разница слабо связана с агентными системами, где ИИ сам выполняет многошаговые цепочки: агенты ближе к автоматизации, но в данных они не выделены отдельно.

Использование по-прежнему сосредоточено: десять популярных задач занимают 24% всех бесед в Claude.ai. Код и математика лидируют – 34% на Claude.ai и 46% в API.

В США быстрое выравнивание, в мире неравенство сохраняется

В США заметны ранние признаки быстрого сближения регионов: штаты с низким использованием догоняют быстрее. Anthropic прогнозирует равенство потребления на душу за 2–5 лет – примерно в десять раз быстрее, чем распространялись значимые технологии в XX веке.

На глобальном уровне сближения нет. Лидерами по Claude.ai идут США, Индия, Япония, Великобритания и Южная Корея, неравенство напрямую связано с ВВП на душу – рост на 1% дает 0,7% больше использования Claude. В бедных странах чаще применяют для учебы и курсовых, в целом же доминирует рабочий сценарий.

Anthropic выложила данные на Hugging Face, чтобы другие исследователи могли изучить экономику ИИ. Полный отчет здесь.

Anthropic вдвое снизила прогнозы продуктивности ИИ

Сложные задачи дают больше пользы, но и сбоев в них больше

Оценки продуктивности сократились вдвое

Внедрение ИИ может "упростить" некоторые профессии

Качественные запросы дают качественные ответы

Пользователи возвращаются к совместной работе вместо полной передачи задач

В США быстрое выравнивание, в мире неравенство сохраняется

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

Генератор видео ChatUp AI без цензуры: ключевые возможности

Топ-7 открытых моделей OCR

Сейчас в тренде