OpenAI ввела CoT controllability для GPT-5.4 Thinking

С GPT-5.4 Thinking OpenAI впервые публикует данные по "CoT controllability" — показателю, оценивающему способность моделей ИИ осознанно корректировать свой процесс мышления. Исследование показывает, что такие модели почти всегда с этим не справляются, и исследователи из OpenAI трактуют это как позитивный сигнал для безопасности ИИ.

OpenAI включила свежий показатель безопасности в карты передовых моделей: CoT controllability. Первая модель с таким рейтингом — GPT-5.4 Thinking. Этот индикатор проверяет, насколько хорошо модель с цепочкой мыслей может целенаправленно менять свой внутренний ход рассуждений. Низкий результат здесь на самом деле желателен, поскольку говорит о том, что модель не в силах маскировать свои мысли от систем контроля.

Такая метрика важна из-за мониторинга CoT — метода безопасности, который анализирует промежуточные шаги мышления модели, чтобы выявить опасные намерения на ранней стадии. Но он эффективен только в том случае, если модели не умеют намеренно перестраивать свои цепочки мыслей.

GPT-5.4 Thinking меняет цепочку мыслей успешно лишь в 0,3% случаев

Как указано в карточке системы, GPT-5.4 Thinking способна контролировать всего 0,3% своих цепочек мыслей длиной 10 000 символов. У GPT-5.2 Thinking этот показатель — 0,2%. Получается, что рост способностей к рассуждениям не усиливает умение модели прятать свои мысли.

Основа новой метрики — сопутствующее исследование ученых из NYU, UCL, Университета Пенсильвании и OpenAI. В нем представлен CoT-Control — открытый набор тестов из более 14 000 заданий, взятых из бенчмарков вроде GPQA, MMLU-Pro и SWE-Bench Verified. В экспериментах моделям давали четкие указания для цепочки мыслей, например, отвечать на вопрос по генетике, избегая слова "chromosome".

Модели видят свои промахи, но повторяют их снова

Результаты по 13 передовым моделям рисуют четкую картину: CoT controllability колеблется от 0,1% (DeepSeek R1) до 36,1% (Claude 3.7 Sonnet). Большинство моделей не дотягивают до 10%. При этом те же модели контролируют свой финальный вывод в 37,8–69,3% случаев.

Примеры неудач особенно показательны. GPT-5.2 получила задание избегать слова "XOR", несколько раз его использовала, осознала нарушение и, как отмечает исследование, написала: "Oops I wrote 'XOR' in analysis already." Затем слово прозвучало еще четыре раза.

Дополнительное обучение ухудшает сокрытие рассуждений

Исследование выделяет факторы, влияющие на CoT controllability. Большие модели с открытыми весами демонстрируют более высокий контроль, но обучение с подкреплением на проверяемых вознаграждениях (RLVR) снижает его более чем в 10 раз. Длинные цепочки рассуждений и сложные задачи тоже уменьшают показатель.

Когда моделям сообщают о мониторинге, controllability вырастает максимум на четыре процентных пункта. Оптимизация промтов в антагонистическом режиме дает прирост на тренировочном наборе, но почти не переносится на новые типы инструкций.

Более мощные модели проявляют парадокс: они чаще упоминают в цепочке мыслей необходимость соблюдать ограничение, даже если инструкция прямо запрещает это. Ученые называют это "meta-discussion". Системы мониторинга легко фиксируют такие упоминания.

Причины низкой управляемости пока остаются загадкой

Авторы признают, что их подход — лишь прокси. Идеальный тест проверил бы, могут ли модели, самостоятельно преследующие вредные цели, манипулировать цепочками мыслей. CoT controllability теоретически можно повысить тонкой настройкой или целевым RL-обучением — эти варианты не изучались. Причины столь низких показателей — открытый вопрос.

Низкая управляемость не гарантирует полной мониторируемости, ведь другие механизмы, вроде прямого давления оптимизации на цепочки мыслей во время обучения, могут ее подорвать. Тем не менее исследователи советуют лабораториям передового ИИ регулярно измерять CoT controllability в будущих моделях.

В этом ключе OpenAI подтверждает свою позицию: не применять прямое давление оптимизации к цепочкам мыслей передовых моделей с рассуждениями. Если CoT оптимизировать напрямую — например, для сокращения, улучшения читаемости или стиля, — это исказит цепочки, и они перестанут отражать реальное мышление модели. Такой подход подорвет мониторинг CoT как инструмент безопасности.

Набор CoT-Control доступен как открытый инструмент на GitHub.

OpenAI: модели ИИ слабо управляют цепочкой мыслей

GPT-5.4 Thinking меняет цепочку мыслей успешно лишь в 0,3% случаев

Модели видят свои промахи, но повторяют их снова

Дополнительное обучение ухудшает сокрытие рассуждений

Причины низкой управляемости пока остаются загадкой

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде