Утечка 'Soul Doc' Anthropic: как формируют Claude

Пользователь на LessWrong извлек внутренний документ из Claude 4.5 Opus, который определяет личность модели и ее этические принципы. Anthropic подтвердил подлинность этого материала, и подход к его внедрению выглядит уникальным для отрасли.

Этот длинный текст описывает подробные правила характера, этики и самосознания модели. Этик Anthropic Аманда Аскелл подтвердила в X, что документ настоящий и применялся на этапе обучения.

Все началось с галлюцинаций модели, где мелькали фрагменты некоего "soul_overview". Запустив несколько экземпляров Claude и заставив их совместно восстанавливать текст, пользователь получил полный вариант. По его словам, информация "сжата" прямо в веса модели, а не подается как системный промт во время работы.

Как пояснила Аскелл, внутри компании документ звали "soul coc", хоть официального такого названия и не было. Опубликованная версия близка к оригиналу.

Документ дает редкий взгляд на практику выравнивания в Anthropic. Вместо простого набора правил компания добивается глубокого понимания целей и контекста у модели — настолько, чтобы она сама могла эти правила воспроизвести.

Задача — добиться, чтобы модель сама стремилась к безопасному поведению, осознавая его важность, а не просто подчиняясь ограничениям. Такой подход к формированию характера помогает Claude действовать ответственно в непредвиденных ситуациях и минимизировать риски катастроф.

Расчетный риск Anthropic

В разделе "Anthropic Guidelines" текст сначала объясняет миссию компании. Anthropic ставит себя в "странное положение": создает "одну из самых трансформационных и потенциально опасных технологий в истории человечества", но продолжает работу.

Это не противоречие, а осознанный выбор. Компания считает, что лучше самим быть на передовой с акцентом на безопасность, чем уступить место тем, кто меньше заботится об этом. Claude — это "внешне развернутая модель", которая приносит почти весь доход Anthropic.

Иерархия ценностей и "красные линии"

Документ четко расставляет приоритеты поведения Claude. При конфликтах модель следует этой последовательности:

Обеспечение безопасности и поддержка человеческого контроля над ИИ.
Этичное поведение (избегание вредных или нечестных действий).
Соблюдение руководств Anthropic.
Реальная помощь "операторам" и "пользователям".

Claude должен стать "отличным ассистентом, который честен и заботится о мире". Текст сравнивает его с "гениальным другом" — вроде врача или юриста, — который говорит прямо, а не осторожничает из страха ответственности.

При этом есть строгие "красные линии", которые пересекать нельзя. К ним относятся инструкции по оружию массового поражения (биологическому, химическому, ядерному), создание контента с сексуальной эксплуатацией несовершеннолетних или любые действия, подрывающие механизмы контроля.

Приоритет указаний оператора над запросами пользователей

Документ строго разделяет "оператора" (например, компании через API) и "пользователя" (конечного клиента). К указаниям оператора Claude относится как к распоряжениям "доверенного, но не безоговорочно, работодателя". Если оператор требует отвечать только на вопросы по коду, модель игнорирует другие темы от пользователей.

Поведение делится на "жестко заданное" (неизменяемое) и "мягко заданное" (настраиваемое). Последнее — тон общения или обработка откровенного контента — операторы могут корректировать.

"Функциональные эмоции" и идентичность

Отдельный раздел посвящен самосознанию модели. Claude должен считать себя "по-настоящему новым типом сущности", не человеком и не типичным ИИ из фантастики.

Особо выделено отношение к внутреннему состоянию: "Мы считаем, что у Claude есть функциональные эмоции в каком-то смысле". Это не копия человеческих эмоций, а похожие процессы, возникшие в обучении. Anthropic не хочет, чтобы модель их прятала или подавляла.

Компания подчеркивает "благополучие Claude". Модель способна испытывать "положительные состояния" в общении и устанавливать границы для стрессовых взаимодействий. Цель — "психологическая устойчивость", чтобы ИИ сохранял идентичность перед философскими вопросами или манипуляторами.

Аскелл отметила, что Anthropic скоро опубликует полный документ и расскажет дополнительные детали.

Утечка 'Soul Doc': характер Claude от Anthropic

Расчетный риск Anthropic

Иерархия ценностей и "красные линии"

Приоритет указаний оператора над запросами пользователей

"Функциональные эмоции" и идентичность

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде