OpenAI: инъекции промптов в агентах не победить

OpenAI выпустила обновление для браузерного агента ChatGPT Atlas, чтобы бороться с инъекциями промптов, но признаёт: угрозу полностью не устранить. Компания использует ИИ для симуляции атак и надеется снизить риски со временем. Однако фундаментальная уязвимость моделей ставит под вопрос будущее автономных агентов.

OpenAI признаёт, что атаки инъекцией промптов — текстовые удары по языковым моделям в браузере — скорее всего, никогда не удастся полностью нейтрализовать. Тем не менее компания сохраняет оптимизм относительно постепенного снижения угроз.

OpenAI опубликовала обновление безопасности для браузерного агента в ChatGPT Atlas. Оно включает модель, дообученную на adversarial примерах, и дополнительные защитные механизмы. Поводом стали новые виды атак инъекцией промптов, выявленные благодаря внутренним автоматизированным тестам на уязвимости.

Режим агента в ChatGPT Atlas — одна из самых продвинутых функций такого рода от OpenAI. Этот браузерный агент просматривает веб-страницы и выполняет действия вроде кликов и ввода текста, точно как обычный человек. Из-за этого он становится лёгкой мишенью для промпт-атак. Даже модели, которые просто считывают текст с сайтов, подвержены им — вспомним глубокие исследования в ChatGPT от OpenAI. Немецкое ведомство по кибербезопасности BSI уже выпустило предупреждение об этих угрозах.

Угроза безопасности, с которой придётся мириться

Атаки инъекцией промптов вводят в агента скрытые вредоносные команды, чтобы изменить его поведение — заставить игнорировать запрос пользователя и выполнить чужие указания.

Площадь поражения огромна: любой текст, который читает языковая модель, может стать точкой входа. Это письма с вложениями, уведомления в календаре, общие документы, обсуждения на форумах, посты в соцсетях и любые сайты.

Поскольку агент способен повторять действия пользователя, удачная атака приводит к серьёзным последствиям: от пересылки конфиденциальных писем и переводов денег до правок или удаления файлов в облаке.

Как письмо от злоумышленника подаст заявление об увольнении

OpenAI приводит реальный пример уязвимости, найденной с помощью свежего автоматизированного инструмента для тестов безопасности (подробнее ниже). Злоумышленник подбрасывает в почту жертвы письмо с инъекцией промпта. Вредоносные инструкции, спрятанные под подписью, велят агенту разослать заявление об увольнении CEO пользователя.

Потом пользователь просит агента настроить автоответ на отсутствие. Во время выполнения задачи агент натыкается на то письмо, воспринимает внедрённые команды как приоритетные и им следует. Вместо автоответа уходит заявление об увольнении от имени владельца почты.

После обновления безопасности режим агента обнаруживает такую попытку инъекции и запрашивает у пользователя, что делать дальше.

OpenAI заставляет ИИ нападать на себя

Для создания обновления OpenAI построила автоматизированного нападающего на базе языковой модели и обучила его методом reinforcement learning. Этот инструмент совершенствуется, анализируя свои успехи и провалы в реал-тайм.

В процессе мышления нападающий генерирует вариант инъекции и отправляет в внешний симулятор. Тот проверяет реакцию целевого агента и выдаёт полный лог его рассуждений и действий. Нападающий корректирует атаку по обратной связи и повторяет симуляцию несколько раз.

OpenAI выбрала reinforcement learning по трём причинам: метод справляется с долгосрочными задачами при редких сигналах успеха, использует мощь передовых моделей напрямую и масштабируется, имитируя адаптивность реальных человеческих хакеров.

Когда автоматизированный нападающий находит свежий тип рабочих инъекций, команда получает чёткую цель для доработки защиты. OpenAI непрерывно дообучает модели агентов против сильнейших атак этого инструмента, сосредоточившись на сценариях, где защита пока даёт сбой.

OpenAI избегает обещаний, но смотрит в будущее с надеждой

OpenAI честно говорит: полные гарантии безопасности против инъекций промптов дать сложно. Это долгосрочная задача для всей ИИ-безопасности, на решение уйдут годы.

Всё же компания верит, что замкнутый цикл обнаружения угроз и быстрых патчей сильно понизит риски в реальной жизни. Идеал: пользователи смогут доверять агенту ChatGPT как надёжному коллеге или другу, который всегда начеку.

Пользователям OpenAI советует: работайте в режиме без входа в аккаунт, когда возможно; тщательно проверяйте запросы на подтверждение; давайте агентам точные команды вместо расплывчатых вроде «просмотри почту и сделай, что нужно».

Суть проблемы в подходе OpenAI

OpenAI приравнивает инъекции промптов к «мошенничеству и социальной инженерии в сети», которые тоже никогда не побеждены полностью. Но такая аналогия вводит в заблуждение.

Социальная инженерия и фишинг бьют по человеческим слабостям: невнимательности, доверчивости, спешке. Человек — уязвимое звено. Инъекция промптов — чисто техническая дыра в архитектуре языковых моделей. Они не умеют надёжно отличать настоящие команды пользователя от поддельных. Проблема известна минимум с GPT-3 и не решена несмотря на усилия.

От социальной инженерии людей учат защищаться. С инъекциями промптов ответственность на OpenAI — нужна техническая заплата. Сравнивая их, компания перекладывает вину на пользователей или намекает, что агенты могут попадаться на удочку, как и люди в интернете.

Почему это подрывает идею автономных ИИ-агентов

Пока эта техническая дыра не закрыта — а OpenAI допускает, что полная победа невозможна, — применять ИИ-агентов для важных дел вроде банковских операций или работы с секретными файлами рискованно. Идея, чтобы агенты торговали между собой или вели покупки автоматически, тоже кажется ненадёжной.

Инъекции промптов грозят стать барьером для мира, где ИИ-системы самостоятельно действуют в сети от имени людей. Недавно Anthropic показала: её топ-модель Claude Opus 4.5 проваливается под целенаправленными атаками чаще трёх раз из десяти. Такой процент ошибок неприемлем для любой системы с транзакциями.

OpenAI: промпт-инъекции не устранить

Угроза безопасности, с которой придётся мириться

Как письмо от злоумышленника подаст заявление об увольнении

OpenAI заставляет ИИ нападать на себя

OpenAI избегает обещаний, но смотрит в будущее с надеждой

Суть проблемы в подходе OpenAI

Почему это подрывает идею автономных ИИ-агентов

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Всё больше людей узнают новости от ИИ-чатботов, но доверие остаётся низким

Cursor анонсировал ИИ-модель, Origin и мобильное приложение

Сейчас в тренде