OpenAI о рисках промпт-инъекций в ИИ-браузерах

Инъекции промптов останутся угрозой для ИИ-браузеров

OpenAI укрепляет защиту своего браузера Atlas на базе ИИ от кибератак, однако компания прямо признаёт: инъекции промптов — вид атак, где вредоносные команды маскируют в веб-страницах или письмах, чтобы ИИ-агенты их выполнили, — никуда не исчезнут в ближайшее время. Такие риски вызывают сомнения в безопасности ИИ-агентов на открытом вебе.

В блоге от понедельника OpenAI отмечает: «Инъекция промптов, как и мошенничество с социальной инженерией в интернете, вряд ли когда-нибудь полностью устранится». Компания добавляет, что «режим агента» в ChatGPT Atlas заметно расширяет поверхность для угроз.

Браузер ChatGPT Atlas представили в октябре, и исследователи по безопасности сразу выложили демо: несколько слов в Google Docs способны были изменить поведение базового браузера. В тот же день Brave опубликовал статью, где объяснил: косвенная инъекция промптов — это фундаментальная трудность для всех ИИ-браузеров, в том числе Comet от Perplexity.

OpenAI разделяет эту позицию с другими. Недавно Национальный центр кибербезопасности Великобритании предупредил: инъекции промптов против генеративных ИИ-приложений «никогда не удастся полностью нейтрализовать», что грозит сайтам утечками данных. Агентство советует специалистам по кибербезопасности минимизировать риски и последствия, а не рассчитывать на полную блокировку атак.

Своё видение OpenAI формулирует так: «Инъекцию промптов мы расцениваем как долгосрочную проблему безопасности ИИ и будем непрерывно усиливать меры против неё».

Стратегия OpenAI против неиссякаемых атак

Чтобы справляться с этой задачей, компания внедряет цикл проактивного реагирования с быстрыми обновлениями — подход, который уже помогает выявлять свежие тактики атак внутри компании до их появления «в дикой природе».

Это перекликается с позицией конкурентов вроде Anthropic и Google: против постоянных промпт-атак нужны многоуровневые защиты с регулярными стресс-тестами. Недавние наработки Google, например, акцентируют архитектурные и политико-уровневые контроля для агентных систем.

Но OpenAI идёт дальше с «автоматизированным атакующим на базе LLM». Это бот, обученный методом reinforcement learning имитировать хакера: он ищет лазейки для внедрения вредных команд ИИ-агенту.

Бот сначала проверяет атаку в симуляции, где видно, как целевой ИИ мыслит и реагирует на неё. Затем анализирует результат, дорабатывает тактику и повторяет цикл. Такой доступ к внутренним рассуждениям ИИ — преимущество, недоступное внешним хакерам, что позволяет находить слабости быстрее реальных угроз.

Такой метод распространён в тестах ИИ-безопасности: создают агентов для поиска редких случаев и быстрого моделирования.

OpenAI пишет: «Наш атакующий, обученный на [reinforcement learning], способен направить агента на выполнение сложных вредных цепочек действий, растянутых на десятки или сотни шагов. Мы выявили новые стратегии атак, которых не было ни в наших кампаниях red teaming с людьми, ни в внешних отчётах».

Демонстрация атаки и обновлений

Скриншот демонстрации инъекции промптов в браузере OpenAI

На демо (частично показано выше) автоматизированный атакующий подбросил вредоносное письмо в inbox пользователя. Когда ИИ-агент проверил почту, он поддался скрытым командам и разослал сообщение об увольнении вместо автоответа об отсутствии. После обновления безопасности «режим агента» распознал попытку инъекции промптов и предупредил пользователя, как уверяет компания.

OpenAI полагается на масштабные тесты и ускоренные циклы патчей, чтобы укреплять системы до реальных инцидентов.

Представитель OpenAI не раскрыл данные о снижении успешных инъекций после апдейта, но отметил: работа с внешними партнёрами по защите Atlas от промпт-инъекций велась ещё до релиза.

Оценка рисков от экспертов

Rami McCarthy, ведущий исследователь безопасности в компании Wiz по кибербезопасности, считает метод с reinforcement learning полезным для адаптации к поведению атакующих, но недостаточным сам по себе.

«Полезно оценивать риски ИИ-систем как autonomy умноженное на access», — сказал McCarthy TechCrunch.

«Агентные браузеры попадают в сложную зону: умеренная автономия плюс очень высокий доступ», — добавил он. «Многие советы учитывают этот баланс. Ограничение доступа при логине снижает уязвимость, а обязательное подтверждение запросов ограничивает автономию».

Это совпадает с рекомендациями OpenAI пользователям: два из них — именно такие. Представитель компании подтвердил: Atlas запрашивает подтверждение перед отправкой сообщений или платежами. Ещё совет — давать агентам точные задачи, а не полный доступ к почте с формулировкой «действуй по ситуации».

«Широкие полномочия упрощают влияние скрытого вредного контента на агента, даже при активных защитах», — поясняет OpenAI.

Хотя OpenAI ставит защиту пользователей Atlas от инъекций промптов в приоритет, McCarthy предлагает усомниться в окупаемости таких рискованных браузеров.

«Для типичных повседневных сценариев агентные браузеры пока не дают ценности, достаточной для их рисков», — отметил McCarthy для TechCrunch. «Риски велики из-за доступа к чувствительным данным вроде почты и платёжных сведений — именно этот доступ делает их мощными. Баланс изменится, но сейчас компромиссы очевидны».

OpenAI: ИИ-браузеры уязвимы к промпт-инъекциям

Инъекции промптов останутся угрозой для ИИ-браузеров

Стратегия OpenAI против неиссякаемых атак

Демонстрация атаки и обновлений

Оценка рисков от экспертов

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде