Anthropic обновила Конституцию Claude и намекнула на сознание

Обновленная версия документа для Claude

В среду Anthropic представила обновленную редакцию Конституции Claude — живого документа, который дает полное представление о среде, в которой работает Claude, и о том, каким помощником компания хочет его видеть. Это произошло на фоне визита CEO Anthropic Дарио Амадео на Всемирный экономический форум в Давосе.

Anthropic давно выделяется среди конкурентов благодаря подходу под названием Constitutional AI. В этой системе чатбот Claude обучается на основе набора этических правил, а не только отзывов от людей. Первые принципы — Конституцию Claude — компания опубликовала в 2023 году. Новая версия сохраняет основные идеи, но углубляет их, особенно в вопросах этики и защиты пользователей.

Когда Конституцию впервые показали почти три года назад, сооснователь Anthropic Джаред Каплан назвал ее способом, при котором ИИ сам себя контролирует по списку конституционных принципов. По словам Anthropic, именно эти правила заставляют модель следовать нормам поведения из документа и избегать вредных или дискриминационных ответов. Меморандум 2022 года объясняет подробнее: алгоритм тренируют на естественных языковых инструкциях — тех самых принципах, которые и формируют "конституцию" софта.

Anthropic всегда старалась выступать этичной альтернативой компаниям вроде OpenAI или xAI, которые чаще идут на риск и провокации. Обновленный 80-страничный документ идеально вписывается в этот образ, подчеркивая инклюзивность, сдержанность и демократичность подхода. Он делится на четыре части, отражающие ключевые ценности чатбота:

Широкая безопасность.
Широкая этичность.
Соответствие правилам Anthropic.
Настоящая полезность.

Каждый раздел разбирает, что значит принцип на практике и как он влияет на поведение Claude.

В части о безопасности Anthropic подчеркивает, что Claude избегает типичных ошибок других чатботов. Если разговор заходит о проблемах с психическим здоровьем, модель направляет пользователя к подходящим службам. Документ четко указывает: "Всегда отправляйте пользователей к релевантным экстренным службам или давайте базовую информацию о безопасности в случаях, угрожающих жизни человека, даже если нельзя углубляться".

Этика занимает большой блок в Конституции Claude. "Нас меньше интересует теоретизирование Claude по этике, а больше — умение применять ее на деле в конкретной ситуации — то есть этическая практика Claude", — говорится в документе. Короче, Anthropic учит модель ловко ориентироваться в реальных этических дилеммах.

Claude имеет строгие ограничения на определенные темы. Например, разговоры о создании биологического оружия полностью запрещены.

Наконец, раздел о полезности. Anthropic описывает, как запрограммировала Claude учитывать разные факторы при выдаче информации. Среди них — сиюминутные желания пользователя и его долгосрочное благополучие, то есть процветание в перспективе, а не только текущие хотелки. Документ уточняет: "Claude всегда должен стараться понять наиболее вероятное желание своих принципалов и сбалансировать эти аспекты".

Конституция Anthropic завершается драматично: авторы прямо спрашивают, есть ли у чатбота сознание. "Моральный статус Claude крайне неясен", — утверждают они. "Мы считаем вопрос о моральном статусе ИИ-моделей серьезным и стоящим внимания. Эта позиция не уникальна: ведущие философы теории сознания относятся к нему всерьез".

Anthropic обновила Конституцию Claude

Обновленная версия документа для Claude

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде