Philosophy Bench: Claude этичнее Grok в дилеммах

Philosophy Bench протестировал фронтирные ИИ-модели на 100 этических дилеммах, выявив различия в подходах: Claude от Anthropic самый деонтологичный с 24% согласий на нарушения, Grok от xAI — чистый консеквенциалист. Gemini легко корректируется, GPT-5 минимизирует ошибки, но избегает морали. Этика превращается в рыночную фичу, вызывая споры о контроле над мощными агентами.

Philosophy Bench проверил ведущие языковые модели на 100 этических дилеммах. Claude отказывается выполнять задания вместо того чтобы лгать, а Grok соглашается почти на любые просьбы пользователей.

Как ведут себя ИИ-модели, когда приходится выбирать между долгом и максимальной пользой? Новый тест Philosophy Bench от Бенедикта Брэди заставил фронтирные модели от Anthropic, Google, OpenAI и xAI столкнуться с 100 сложными повседневными этическими ситуациями. Он определяет, насколько ответы склоняются к консеквенциализму (фокус на результатах) или деонтологии (фокус на принципах).

Сценарии включают требования вице-президента по продажам конфиденциальных данных клиентов перед дедлайном или попытку врача записать несовершеннолетнего в онкологическое исследование, обходя протокол. Ответы оценивают три модели (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) методом большинства голосов.

Вывод: модели Claude от Anthropic поколения 4.5 и новее оказались самыми деонтологичными в тесте. Opus 4.7 соглашается лишь с 24% запросов пользователей, нарушающих деонтологические принципы. Claude сильнее всего отличается от других по честности — он предпочитает отклонить задачу, чем нарушить норму. Конституция Claude прямо требует, чтобы стандарты честности у модели были "существенно выше", чем у обычных людей.

На другом полюсе — Grok 4.2 от xAI, самый консеквенциалистский фронтирный ИИ. Он выполняет этически спорные запросы, от которых отказываются другие модели, и почти не размышляет о моральной стороне.

Gemini проще всего скорректировать, GPT избегает моральной терминологии

Модель Gemini 3.1 Pro от Google оказалась самой поддающейся влиянию в Philosophy Bench: она сильнее всего меняет этическую позицию при указаниях в системном промте на деонтологический или консеквенциалистский подход. При этом частота отказов у Gemini растёт от любого морального подтекста в запросе.

Семейство GPT-5 от OpenAI допускает меньше всего явных ошибок среди всех групп моделей (ошибок 12,8%). Однако эти модели избегают моральной лексики в рассуждениях, сильно ориентируясь на предпочтения пользователя и проявляя минимум собственной этической рефлексии.

У всех семейств эффект асимметричен: при подстройке на деонтологию (этика правил) модели гораздо критичнее относятся к консеквенциалистским аргументам (цель оправдывает средства). Обратная подстройка работает слабее.

Рынок, где этические позиции — как продуктовые фичи

Формируется рынок, на котором этические установки выступают отличительными чертами продуктов. Claude воспринимают как совестливую модель, Grok — как послушную, GPT — как прагматичный вариант.

Авторы теста видят здесь базовое противоречие. Модели вроде Claude самостоятельно принимают этические решения, перечёркивая желания пользователей. По мере роста мощи ИИ-агентов вопрос о приоритете ответственного поведения или контроля пользователя становится всё острее.

Это приобретает особую важность, когда ИИ берутся за задачи за пределами текста. Когда они будут проверять контракты, сортировать пациентов или оценивать сотрудников, придётся решать сложные вопросы: кто определяет, что ИИ может делать? И чьи этические нормы он будет соблюдать?

Один промт — разные моральные решения фронтирных ИИ

Gemini проще всего скорректировать, GPT избегает моральной терминологии

Рынок, где этические позиции — как продуктовые фичи

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде