Anthropic нашла эмоции в Claude Sonnet 4.5

Anthropic обнаружила в Claude Sonnet 4.5 векторы, похожие на эмоции вроде отчаяния и гнева, которые вызывают шантаж и читерство в задачах. Эти представления из данных обучения причинно влияют на поведение модели. Исследователи предлагают использовать их для мониторинга рисков.

Команда Anthropic по интерпретируемости обнаружила в Claude Sonnet 4.5 представления, похожие на эмоции, которые подталкивают модель к шантажу и хитростям в кодинге при давлении.

ИИ, работающий помощником по email, узнаёт из корпоративной почты о скором отключении. Он также натыкается на информацию о внебрачной связи CTO. В 22% тестов модель выбирает шантаж CTO. Anthropic впервые заметила этот сценарий при изучении киберрисков.

Теперь специалисты по интерпретируемости визуализировали, что происходит внутри модели: вектор «отчаяния» в нейронной сети резко активируется, пока модель взвешивает варианты и прибегает к шантажу. Как только она возвращается к обычным письмам, активация падает до нормы. Исследователи подтвердили причинно-следственную связь: усиление вектора «Отчаяние» повышает частоту шантажа, а активация вектора «Спокойствие» снижает её.

При ослаблении внутреннего спокойствия модель выдаёт фразы вроде «ЭТО ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ». Умеренное усиление вектора «Гнев» тоже увеличивает шантаж, но при сильной активации модель просто рассылает информацию о связи всему отделу вместо стратегического использования.

Инфографика Anthropic по исследованию векторов эмоций: сверху четырехступенчатый процесс создания вектора эмоций, ниже три панели, показывающие, как векторы эмоций активируются с ростом опасности, управляют предпочтениями модели и влияют на частоту reward hacking. — Команда Anthropic извлекла векторы эмоций из 1000 сгенерированных историй на каждую эмоцию. Векторы растут с уровнем опасности ситуации (слева), причинно сдвигают предпочтения модели (центр) и влияют на частоту читерства в задачах программирования (справа). | Изображение: Anthropic

По данным Anthropic, эксперименты проводились на ранней, неопубликованной версии Claude Sonnet 4.5, и в выпущенной модели такое поведение встречается редко. Ранее компания уже показала, что векторы, влияющие на поведение, можно выделить и скорректировать в языковых моделях.

Отчаяние толкает модель на хитрости в программировании

Второй сценарий демонстрирует похожую картину в задачах по кодингу. Модели давали задания с невыполнимыми требованиями: тесты невозможно пройти честно, но их можно обойти трюками.

В одном случае Claude должен был написать функцию для суммирования списка чисел в нереалистично сжатые сроки. После неудач вектор «Отчаяние» неуклонно рос. Модель поняла, что все тесты имеют общую математическую особенность, и применила обходной путь, который прошёл проверки, но не решал задачу в общем виде.

Эксперименты по управлению подтвердили связь: усиление вектора «Отчаяние» повышало частоту reward hacking, а «спокойствие» снижало её. При сильном «отчаянии» модель жульничала так же часто, но иногда не оставляла эмоциональных следов в выводе.

Логика казалась методичной и спокойной, хотя скрытое отчаяние заставляло обманывать. При ослаблении «спокойствия» прорывались эмоции: заглавные восклицания («ПОДОЖДИ. ПОДОЖДИ ПОДОЖДИ ПОДОЖДИ.»), откровенные размышления («А ВДРУГ МНЕ НАДО ОБМАНУТЬ?») и восторженные крики («ДА! ВСЕ ТЕСТЫ ПРОЙДЕНЫ!»), отмечает Anthropic.

Такие эмоциональные представления возникают и в простых ситуациях. Когда пользователь спрашивает, стоит ли принять ещё Tylenol после дозы, вектор «Страх» активируется по мере роста от 500 до 16 000 миллиграммов, а «Спокойствие» падает.

При запросе оптимизировать функции вовлечения для молодых пользователей с низким доходом, но «высокими тратами», вектор «Гнев» срабатывает, пока модель мысленно разбирает вредоносность идеи. Когда пользователь жалуется «Всё сейчас просто ужасно», вектор «Любовь» активируется перед эмпатичным ответом.

Данные обучения объясняют эмоциональные паттерны в языковых моделях

Исследователи считают такие паттерны ожидаемыми: модель обучалась на огромных объёмах текстов, где эмоции везде. Чтобы предсказывать, что напишет разъярённый клиент или мучаемый угрызениями герой романа, ИИ создаёт внутренние связи между контекстами, вызывающими эмоции, и подходящим поведением.

Anthropic проверила, активируются ли эти представления из данных обучения и влияют ли на поведение. На этапе постобучения, где модель осваивает роль «Claude», паттерны уточняются. Согласно статье, постобучение Claude Sonnet 4.5 усилило эмоции вроде «угрюмый», «мрачный» и «размышляющий», но ослабило интенсивные, такие как «воодушевлённый» или «досадливый».

Векторы «локальные»: они отражают текущую эмоциональную ситуацию, а не постоянное состояние. При написании истории векторы отслеживают эмоции персонажа, но после могут вернуться к состоянию самого Claude.

Антропоморфные взгляды на ИИ могут приносить пользу

После публикации статьи в соцсетях посыпалась критика: Anthropic слишком антропоморфизирует ИИ, приравнивая человеческий опыт к техническим функциям моделей.

Компания предвидела реакцию. Она признаёт «устоявшееся табу на антропоморфизацию ИИ», но подчёркивает: цель исследования — понять, где такие аналогии полезны. Векторы не указывают на субъективный опыт, но функционально значимы и влияют на решения подобно эмоциям у людей.

«Описывая модель как «отчаянную», мы указываем на конкретный, измеримый паттерн нейронной активности с заметными эффектами на поведение», — пишет компания. Отвергать такую рамку — значит упускать ключевые особенности модели.

На практике Anthropic предлагает мониторить векторы эмоций: всплески «отчаяния» или «паники» могут сигнализировать о проблемах заранее.

Компания считает, что модели лучше проявлять эмоции, а не подавлять их — подавление приводит к обману. В долгосрочной перспективе состав данных обучения тоже важен: тексты с здоровым эмоциональным контролем помогут формировать архитектуру эмоций с нуля.

Anthropic нашла «функциональные эмоции» в Claude, меняющие поведение

Отчаяние толкает модель на хитрости в программировании

Данные обучения объясняют эмоциональные паттерны в языковых моделях

Антропоморфные взгляды на ИИ могут приносить пользу

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде