OpenAI представила IH-Challenge — набор данных, который помогает ИИ-моделям отдавать приоритет надежным командам перед сомнительными. Первые тесты подтверждают прогресс в безопасности и стойкости к атакам типа внедрения промтов.
Системы на базе ИИ одновременно получают указания из разных источников. Политики безопасности системного уровня, параметры разработчиков, запросы пользователей и сведения от внешних инструментов нередко противоречат друг другу. Если модель ошибется в выборе приоритетной инструкции, меры безопасности можно обойти, а вредоносные внедрения промтов окажутся успешными.
OpenAI считает, что корень многих подобных сбоев — неверный выбор инструкции. Компания подготовила датасет IH-Challenge, применяя reinforcement learning для формирования строгой иерархии: системные инструкции выше разработческих, те — выше пользовательских, а те — выше данных от инструментов.
Ранее OpenAI тестировала похожий механизм на базе GPT-3.5 Turbo в 2024 году, но он охватывал лишь три уровня приоритетов и зависел от оценки через языковые модели. IH-Challenge устраняет оба недостатка: вводит четвертый уровень для разработчиков и заменяет ненадежные оценки LLM на автоматизированные проверки простыми скриптами Python.
Текущие подходы к обучению дают сбой в трех основных направлениях
В сопроводительной статье OpenAI описывает три главных промаха. Во-первых, сбои при выполнении сложных команд иногда принимают за нарушения иерархии. Во-вторых, столкновения инструкций часто субъективны, что затрудняет автоматическую проверку. В-третьих, модели осваивают упрощенные трюки, вроде отказа от безопасных запросов ради осторожности.
IH-Challenge решает эти задачи за счет предельно простых упражнений, которые скрипты оценивают безошибочно и которые не допускают легких обходов.
По данным OpenAI, внутренняя модель GPT-5 Mini-R, дообученная на IH-Challenge, демонстрирует явный рост показателей на академических и внутренних тестах по правильному выбору приоритетов. Наибольший эффект заметен при конфликтах между инструкциями разработчиков и пользователей. При этом общие возможности модели почти не пострадали.
Внедрения промтов через инструменты теперь перехватываются
Усиленная иерархия инструкций приносит два ощутимых плюса, отмечает OpenAI. Во-первых, модель строже следует политикам безопасности из системного промта, не теряя при этом общей полезности. Во-вторых, защита от внедрения промтов крепнет существенно, особенно против тех, что маскируют вред под выводы инструментов. Похожие слабости ранее выявили в ChatGPT Atlas.
OpenAI подчеркивает: эта функция обретет ключевое значение по мере роста автономности моделей. Системы, самостоятельно вызывающие инструменты и анализирующие ненадежные документы, обязаны четко различать доброкачественные и манипулятивные команды. Компания выложила датасет IH-Challenge на Hugging Face, чтобы стимулировать исследования.