OpenAI выпустила IH-Challenge для иерархии ИИ-инструкций

OpenAI представила IH-Challenge — набор данных, который помогает ИИ-моделям отдавать приоритет надежным командам перед сомнительными. Первые тесты подтверждают прогресс в безопасности и стойкости к атакам типа внедрения промтов.

Системы на базе ИИ одновременно получают указания из разных источников. Политики безопасности системного уровня, параметры разработчиков, запросы пользователей и сведения от внешних инструментов нередко противоречат друг другу. Если модель ошибется в выборе приоритетной инструкции, меры безопасности можно обойти, а вредоносные внедрения промтов окажутся успешными.

OpenAI считает, что корень многих подобных сбоев — неверный выбор инструкции. Компания подготовила датасет IH-Challenge, применяя reinforcement learning для формирования строгой иерархии: системные инструкции выше разработческих, те — выше пользовательских, а те — выше данных от инструментов.

Ранее OpenAI тестировала похожий механизм на базе GPT-3.5 Turbo в 2024 году, но он охватывал лишь три уровня приоритетов и зависел от оценки через языковые модели. IH-Challenge устраняет оба недостатка: вводит четвертый уровень для разработчиков и заменяет ненадежные оценки LLM на автоматизированные проверки простыми скриптами Python.

Текущие подходы к обучению дают сбой в трех основных направлениях

В сопроводительной статье OpenAI описывает три главных промаха. Во-первых, сбои при выполнении сложных команд иногда принимают за нарушения иерархии. Во-вторых, столкновения инструкций часто субъективны, что затрудняет автоматическую проверку. В-третьих, модели осваивают упрощенные трюки, вроде отказа от безопасных запросов ради осторожности.

IH-Challenge решает эти задачи за счет предельно простых упражнений, которые скрипты оценивают безошибочно и которые не допускают легких обходов.

По данным OpenAI, внутренняя модель GPT-5 Mini-R, дообученная на IH-Challenge, демонстрирует явный рост показателей на академических и внутренних тестах по правильному выбору приоритетов. Наибольший эффект заметен при конфликтах между инструкциями разработчиков и пользователей. При этом общие возможности модели почти не пострадали.

Внедрения промтов через инструменты теперь перехватываются

Усиленная иерархия инструкций приносит два ощутимых плюса, отмечает OpenAI. Во-первых, модель строже следует политикам безопасности из системного промта, не теряя при этом общей полезности. Во-вторых, защита от внедрения промтов крепнет существенно, особенно против тех, что маскируют вред под выводы инструментов. Похожие слабости ранее выявили в ChatGPT Atlas.

OpenAI подчеркивает: эта функция обретет ключевое значение по мере роста автономности моделей. Системы, самостоятельно вызывающие инструменты и анализирующие ненадежные документы, обязаны четко различать доброкачественные и манипулятивные команды. Компания выложила датасет IH-Challenge на Hugging Face, чтобы стимулировать исследования.

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

Текущие подходы к обучению дают сбой в трех основных направлениях

Внедрения промтов через инструменты теперь перехватываются

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде