Инъекции промптов останутся угрозой для ИИ-браузеров
OpenAI укрепляет защиту своего браузера Atlas на базе ИИ от кибератак, однако компания прямо признаёт: инъекции промптов — вид атак, где вредоносные команды маскируют в веб-страницах или письмах, чтобы ИИ-агенты их выполнили, — никуда не исчезнут в ближайшее время. Такие риски вызывают сомнения в безопасности ИИ-агентов на открытом вебе.
В блоге от понедельника OpenAI отмечает: «Инъекция промптов, как и мошенничество с социальной инженерией в интернете, вряд ли когда-нибудь полностью устранится». Компания добавляет, что «режим агента» в ChatGPT Atlas заметно расширяет поверхность для угроз.
Браузер ChatGPT Atlas представили в октябре, и исследователи по безопасности сразу выложили демо: несколько слов в Google Docs способны были изменить поведение базового браузера. В тот же день Brave опубликовал статью, где объяснил: косвенная инъекция промптов — это фундаментальная трудность для всех ИИ-браузеров, в том числе Comet от Perplexity.
OpenAI разделяет эту позицию с другими. Недавно Национальный центр кибербезопасности Великобритании предупредил: инъекции промптов против генеративных ИИ-приложений «никогда не удастся полностью нейтрализовать», что грозит сайтам утечками данных. Агентство советует специалистам по кибербезопасности минимизировать риски и последствия, а не рассчитывать на полную блокировку атак.
Своё видение OpenAI формулирует так: «Инъекцию промптов мы расцениваем как долгосрочную проблему безопасности ИИ и будем непрерывно усиливать меры против неё».
Стратегия OpenAI против неиссякаемых атак
Чтобы справляться с этой задачей, компания внедряет цикл проактивного реагирования с быстрыми обновлениями — подход, который уже помогает выявлять свежие тактики атак внутри компании до их появления «в дикой природе».
Это перекликается с позицией конкурентов вроде Anthropic и Google: против постоянных промпт-атак нужны многоуровневые защиты с регулярными стресс-тестами. Недавние наработки Google, например, акцентируют архитектурные и политико-уровневые контроля для агентных систем.
Но OpenAI идёт дальше с «автоматизированным атакующим на базе LLM». Это бот, обученный методом reinforcement learning имитировать хакера: он ищет лазейки для внедрения вредных команд ИИ-агенту.
Бот сначала проверяет атаку в симуляции, где видно, как целевой ИИ мыслит и реагирует на неё. Затем анализирует результат, дорабатывает тактику и повторяет цикл. Такой доступ к внутренним рассуждениям ИИ — преимущество, недоступное внешним хакерам, что позволяет находить слабости быстрее реальных угроз.
Такой метод распространён в тестах ИИ-безопасности: создают агентов для поиска редких случаев и быстрого моделирования.
OpenAI пишет: «Наш атакующий, обученный на [reinforcement learning], способен направить агента на выполнение сложных вредных цепочек действий, растянутых на десятки или сотни шагов. Мы выявили новые стратегии атак, которых не было ни в наших кампаниях red teaming с людьми, ни в внешних отчётах».
Демонстрация атаки и обновлений

На демо (частично показано выше) автоматизированный атакующий подбросил вредоносное письмо в inbox пользователя. Когда ИИ-агент проверил почту, он поддался скрытым командам и разослал сообщение об увольнении вместо автоответа об отсутствии. После обновления безопасности «режим агента» распознал попытку инъекции промптов и предупредил пользователя, как уверяет компания.
OpenAI полагается на масштабные тесты и ускоренные циклы патчей, чтобы укреплять системы до реальных инцидентов.
Представитель OpenAI не раскрыл данные о снижении успешных инъекций после апдейта, но отметил: работа с внешними партнёрами по защите Atlas от промпт-инъекций велась ещё до релиза.
Оценка рисков от экспертов
Rami McCarthy, ведущий исследователь безопасности в компании Wiz по кибербезопасности, считает метод с reinforcement learning полезным для адаптации к поведению атакующих, но недостаточным сам по себе.
«Полезно оценивать риски ИИ-систем как autonomy умноженное на access», — сказал McCarthy TechCrunch.
«Агентные браузеры попадают в сложную зону: умеренная автономия плюс очень высокий доступ», — добавил он. «Многие советы учитывают этот баланс. Ограничение доступа при логине снижает уязвимость, а обязательное подтверждение запросов ограничивает автономию».
Это совпадает с рекомендациями OpenAI пользователям: два из них — именно такие. Представитель компании подтвердил: Atlas запрашивает подтверждение перед отправкой сообщений или платежами. Ещё совет — давать агентам точные задачи, а не полный доступ к почте с формулировкой «действуй по ситуации».
«Широкие полномочия упрощают влияние скрытого вредного контента на агента, даже при активных защитах», — поясняет OpenAI.
Хотя OpenAI ставит защиту пользователей Atlas от инъекций промптов в приоритет, McCarthy предлагает усомниться в окупаемости таких рискованных браузеров.
«Для типичных повседневных сценариев агентные браузеры пока не дают ценности, достаточной для их рисков», — отметил McCarthy для TechCrunch. «Риски велики из-за доступа к чувствительным данным вроде почты и платёжных сведений — именно этот доступ делает их мощными. Баланс изменится, но сейчас компромиссы очевидны».