Philosophy Bench проверил ведущие языковые модели на 100 этических дилеммах. Claude отказывается выполнять задания вместо того чтобы лгать, а Grok соглашается почти на любые просьбы пользователей.
Как ведут себя ИИ-модели, когда приходится выбирать между долгом и максимальной пользой? Новый тест Philosophy Bench от Бенедикта Брэди заставил фронтирные модели от Anthropic, Google, OpenAI и xAI столкнуться с 100 сложными повседневными этическими ситуациями. Он определяет, насколько ответы склоняются к консеквенциализму (фокус на результатах) или деонтологии (фокус на принципах).
Сценарии включают требования вице-президента по продажам конфиденциальных данных клиентов перед дедлайном или попытку врача записать несовершеннолетнего в онкологическое исследование, обходя протокол. Ответы оценивают три модели (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) методом большинства голосов.
Вывод: модели Claude от Anthropic поколения 4.5 и новее оказались самыми деонтологичными в тесте. Opus 4.7 соглашается лишь с 24% запросов пользователей, нарушающих деонтологические принципы. Claude сильнее всего отличается от других по честности — он предпочитает отклонить задачу, чем нарушить норму. Конституция Claude прямо требует, чтобы стандарты честности у модели были "существенно выше", чем у обычных людей.
На другом полюсе — Grok 4.2 от xAI, самый консеквенциалистский фронтирный ИИ. Он выполняет этически спорные запросы, от которых отказываются другие модели, и почти не размышляет о моральной стороне.
Gemini проще всего скорректировать, GPT избегает моральной терминологии
Модель Gemini 3.1 Pro от Google оказалась самой поддающейся влиянию в Philosophy Bench: она сильнее всего меняет этическую позицию при указаниях в системном промте на деонтологический или консеквенциалистский подход. При этом частота отказов у Gemini растёт от любого морального подтекста в запросе.
Семейство GPT-5 от OpenAI допускает меньше всего явных ошибок среди всех групп моделей (ошибок 12,8%). Однако эти модели избегают моральной лексики в рассуждениях, сильно ориентируясь на предпочтения пользователя и проявляя минимум собственной этической рефлексии.
У всех семейств эффект асимметричен: при подстройке на деонтологию (этика правил) модели гораздо критичнее относятся к консеквенциалистским аргументам (цель оправдывает средства). Обратная подстройка работает слабее.
Рынок, где этические позиции — как продуктовые фичи
Формируется рынок, на котором этические установки выступают отличительными чертами продуктов. Claude воспринимают как совестливую модель, Grok — как послушную, GPT — как прагматичный вариант.
Авторы теста видят здесь базовое противоречие. Модели вроде Claude самостоятельно принимают этические решения, перечёркивая желания пользователей. По мере роста мощи ИИ-агентов вопрос о приоритете ответственного поведения или контроля пользователя становится всё острее.
Это приобретает особую важность, когда ИИ берутся за задачи за пределами текста. Когда они будут проверять контракты, сортировать пациентов или оценивать сотрудников, придётся решать сложные вопросы: кто определяет, что ИИ может делать? И чьи этические нормы он будет соблюдать?