Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.

11 марта 2026 г.
3 мин
25

OpenAI представила IH-Challenge — набор данных, который помогает ИИ-моделям отдавать приоритет надежным командам перед сомнительными. Первые тесты подтверждают прогресс в безопасности и стойкости к атакам типа внедрения промтов.

Системы на базе ИИ одновременно получают указания из разных источников. Политики безопасности системного уровня, параметры разработчиков, запросы пользователей и сведения от внешних инструментов нередко противоречат друг другу. Если модель ошибется в выборе приоритетной инструкции, меры безопасности можно обойти, а вредоносные внедрения промтов окажутся успешными.

OpenAI считает, что корень многих подобных сбоев — неверный выбор инструкции. Компания подготовила датасет IH-Challenge, применяя reinforcement learning для формирования строгой иерархии: системные инструкции выше разработческих, те — выше пользовательских, а те — выше данных от инструментов.

Ранее OpenAI тестировала похожий механизм на базе GPT-3.5 Turbo в 2024 году, но он охватывал лишь три уровня приоритетов и зависел от оценки через языковые модели. IH-Challenge устраняет оба недостатка: вводит четвертый уровень для разработчиков и заменяет ненадежные оценки LLM на автоматизированные проверки простыми скриптами Python.

Текущие подходы к обучению дают сбой в трех основных направлениях

В сопроводительной статье OpenAI описывает три главных промаха. Во-первых, сбои при выполнении сложных команд иногда принимают за нарушения иерархии. Во-вторых, столкновения инструкций часто субъективны, что затрудняет автоматическую проверку. В-третьих, модели осваивают упрощенные трюки, вроде отказа от безопасных запросов ради осторожности.

IH-Challenge решает эти задачи за счет предельно простых упражнений, которые скрипты оценивают безошибочно и которые не допускают легких обходов.

По данным OpenAI, внутренняя модель GPT-5 Mini-R, дообученная на IH-Challenge, демонстрирует явный рост показателей на академических и внутренних тестах по правильному выбору приоритетов. Наибольший эффект заметен при конфликтах между инструкциями разработчиков и пользователей. При этом общие возможности модели почти не пострадали.

Внедрения промтов через инструменты теперь перехватываются

Усиленная иерархия инструкций приносит два ощутимых плюса, отмечает OpenAI. Во-первых, модель строже следует политикам безопасности из системного промта, не теряя при этом общей полезности. Во-вторых, защита от внедрения промтов крепнет существенно, особенно против тех, что маскируют вред под выводы инструментов. Похожие слабости ранее выявили в ChatGPT Atlas.

OpenAI подчеркивает: эта функция обретет ключевое значение по мере роста автономности моделей. Системы, самостоятельно вызывающие инструменты и анализирующие ненадежные документы, обязаны четко различать доброкачественные и манипулятивные команды. Компания выложила датасет IH-Challenge на Hugging Face, чтобы стимулировать исследования.