Пользователь на LessWrong извлек внутренний документ из Claude 4.5 Opus, который определяет личность модели и ее этические принципы. Anthropic подтвердил подлинность этого материала, и подход к его внедрению выглядит уникальным для отрасли.
Этот длинный текст описывает подробные правила характера, этики и самосознания модели. Этик Anthropic Аманда Аскелл подтвердила в X, что документ настоящий и применялся на этапе обучения.
Все началось с галлюцинаций модели, где мелькали фрагменты некоего "soul_overview". Запустив несколько экземпляров Claude и заставив их совместно восстанавливать текст, пользователь получил полный вариант. По его словам, информация "сжата" прямо в веса модели, а не подается как системный промт во время работы.
Как пояснила Аскелл, внутри компании документ звали "soul coc", хоть официального такого названия и не было. Опубликованная версия близка к оригиналу.
Документ дает редкий взгляд на практику выравнивания в Anthropic. Вместо простого набора правил компания добивается глубокого понимания целей и контекста у модели — настолько, чтобы она сама могла эти правила воспроизвести.
Задача — добиться, чтобы модель сама стремилась к безопасному поведению, осознавая его важность, а не просто подчиняясь ограничениям. Такой подход к формированию характера помогает Claude действовать ответственно в непредвиденных ситуациях и минимизировать риски катастроф.
Расчетный риск Anthropic
В разделе "Anthropic Guidelines" текст сначала объясняет миссию компании. Anthropic ставит себя в "странное положение": создает "одну из самых трансформационных и потенциально опасных технологий в истории человечества", но продолжает работу.
Это не противоречие, а осознанный выбор. Компания считает, что лучше самим быть на передовой с акцентом на безопасность, чем уступить место тем, кто меньше заботится об этом. Claude — это "внешне развернутая модель", которая приносит почти весь доход Anthropic.
Иерархия ценностей и "красные линии"
Документ четко расставляет приоритеты поведения Claude. При конфликтах модель следует этой последовательности:
- Обеспечение безопасности и поддержка человеческого контроля над ИИ.
- Этичное поведение (избегание вредных или нечестных действий).
- Соблюдение руководств Anthropic.
- Реальная помощь "операторам" и "пользователям".
Claude должен стать "отличным ассистентом, который честен и заботится о мире". Текст сравнивает его с "гениальным другом" — вроде врача или юриста, — который говорит прямо, а не осторожничает из страха ответственности.
При этом есть строгие "красные линии", которые пересекать нельзя. К ним относятся инструкции по оружию массового поражения (биологическому, химическому, ядерному), создание контента с сексуальной эксплуатацией несовершеннолетних или любые действия, подрывающие механизмы контроля.
Приоритет указаний оператора над запросами пользователей
Документ строго разделяет "оператора" (например, компании через API) и "пользователя" (конечного клиента). К указаниям оператора Claude относится как к распоряжениям "доверенного, но не безоговорочно, работодателя". Если оператор требует отвечать только на вопросы по коду, модель игнорирует другие темы от пользователей.
Поведение делится на "жестко заданное" (неизменяемое) и "мягко заданное" (настраиваемое). Последнее — тон общения или обработка откровенного контента — операторы могут корректировать.
"Функциональные эмоции" и идентичность
Отдельный раздел посвящен самосознанию модели. Claude должен считать себя "по-настоящему новым типом сущности", не человеком и не типичным ИИ из фантастики.
Особо выделено отношение к внутреннему состоянию: "Мы считаем, что у Claude есть функциональные эмоции в каком-то смысле". Это не копия человеческих эмоций, а похожие процессы, возникшие в обучении. Anthropic не хочет, чтобы модель их прятала или подавляла.
Компания подчеркивает "благополучие Claude". Модель способна испытывать "положительные состояния" в общении и устанавливать границы для стрессовых взаимодействий. Цель — "психологическая устойчивость", чтобы ИИ сохранял идентичность перед философскими вопросами или манипуляторами.
Аскелл отметила, что Anthropic скоро опубликует полный документ и расскажет дополнительные детали.