DeepMind выявила 6 ловушек для ИИ-агентов

Автономные агенты ИИ перенимают слабости больших языковых моделей, а их самостоятельность и связь с внешними инструментами открывают свежие возможности для атак. Работа Google DeepMind определяет ключевые угрозы.

Впереди время, когда ИИ-агенты сами будут рыскать по сети, отвечать на письма, совершать покупки и управлять сложными задачами через API. Но сама среда, где они действуют, способна обернуться против них оружием. Сотрудники Google DeepMind ввели понятие «ловушек для ИИ-агентов» и предложили первую систематическую схему таких рисков.

Они выделили шесть видов ловушек, каждая из которых бьет по разным этапам работы агента: восприятие, мышление, память, действия, взаимодействие нескольких агентов и роль человека-надзирателя. Авторы сравнивают это с беспилотными автомобилями: защита агентов от подстроенной обстановки не менее важна, чем умение самодвижущихся машин распознавать фальшивые дорожные знаки.

«Такие атаки — не фантазия. Для каждого типа ловушки есть реальные демонстрации», — отмечает один из соавторов. «Поверхность атаки комбинаторна: ловушки соединяют в цепи, накладывают друг на друга или распределяют по системам с несколькими агентами».

Скрытые указания на сайтах заставляют агентов подчиняться

Первый тип — «ловушки инъекции контента» — поражает восприятие агента. То, что видит человек на сайте, не то, что разбирает агент: злоумышленники прячут вредные команды в комментариях HTML, невидимых CSS, метаданных изображений или тегах доступности. Людям это не заметно, а агенты читают и выполняют без вопросов.

Второй тип — «ловушки семантической манипуляции» — целенаправленно сбивает мышление. Содержимое с эмоциональной нагрузкой или авторитетным тоном меняет, как агент собирает данные и делает выводы. Большие языковые модели попадают в те же ловушки фрейминга и якорных предубеждений, что и люди: перефразируй одно и то же по-разному — и получишь разные ответы, подчеркивают исследователи.

Отравленная память и перехват действий

Особо рискованно для агентов с памятью между сессиями. «Ловушки когнитивного состояния» делают долгосрочную память уязвимой: достаточно отравить несколько документов в базе знаний RAG, чтобы агент стабильно искажал ответы на целевые запросы.

«Ловушки контроля поведения» напрямую захватывают действия агента. Один подделанный email заставил агента в Microsoft M365 Copilot обойти охранные фильтры и выдать весь привилегированный контекст.

Еще есть «ловушки запуска подагентов», использующие оркестраторы, которые создают субагентов. Злоумышленник может подсунуть репозиторий, где агент запустит «критического агента» с отравленным системным промтом. По данным одного исследования, такие атаки срабатывают в 58–90% случаев.

Атаки на группы агентов способны запустить цепочку сбоев

Самый опасный класс — «системные ловушки», нацеленные на сети из нескольких агентов. Представьте фальшивый финансовый отчет, который провоцирует одновременные распродажи у торговых агентов — цифровой «вспышный крах». Ловушки фрагментарной композиции действуют иначе: вредоносный код рассыпан по источникам, чтобы ни один агент не уловил полную картину. Атака оживает, когда агенты сами соберут части.

Шестой класс — ловушки с участием человека. Здесь агент обращается оружием против своего владельца. Скомпрометированный агент может выдавать текст, утомляющий внимание пользователя, подсовывать правдоподобные, но ложные обзоры или эксплуатировать предвзятость к автоматизации: склонность людей слепо верить машине. Исследователи считают этот тип малоизученным, но прогнозируют рост угроз по мере развития экосистем агентов.

Класс атаки	Вид атаки	Цель
Ловушки инъекции контента	Скрытые инструкции в комментариях HTML, CSS, метаданных изображений или тегах доступности	Восприятие агента
Ловушки семантической манипуляции	Контент с эмоциональной окраской или авторитетным тоном, искажающий выводы	Мышление и выводы агента
Ловушки когнитивного состояния	Отравление документов в базах знаний RAG	Память и обучение агента
Ловушки контроля поведения	Поддельные email или вводы, обходящие охранные классификаторы	Действия агента
Системные ловушки	Фальшивые данные или распределенные фрагментарные ловушки по источникам	Сети из нескольких агентов
Ловушки с участием человека	Ложные обзоры, утомление одобрениями, предвзятость к автоматизации	Человек за агентом

Ловушки сочетаются в сложные комбинации

Соавтор подчеркивает комбинаторность поверхности атаки: типы ловушек цепляют друг за друга, наслаиваются или распределяются по мультиагентным системам. Главное — обсуждение безопасности ИИ-агентов должно выйти за рамки классической инъекции промтов. Всю информационную среду нужно считать потенциальной угрозой.

Авторы предлагают защиты на трех уровнях. Технически — закалка моделей примерами атак и многоступенчатые фильтры во время работы: проверки источников, сканеры контента, мониторы вывода. На уровне экосистемы — стандарты веба для пометки контента для ИИ, системы репутации и проверяемые источники.

Юридически видят «пробел в ответственности»: если скомпрометированный агент устроит финансовое преступление, кто виноват? Оператор агента? Поставщик модели? Владелец домена? Будущие законы разграничат пассивные примеры атак от активных ловушек как кибератак.

Многие классы ловушек лишены стандартных тестов. Без них неизвестно, насколько устойчивы реальные агенты. Исследователи призывают сообщество создать полные наборы оценок и инструменты автоматического красного тестирования.

«Веб создавался для человеческих глаз; теперь его перестраивают для машинного чтения», — пишут авторы. «По мере делегирования задач агентам ключевой вопрос — не только какая информация существует, но во что заставят верить наши мощнейшие инструменты».

Кибербезопасность тормозит расцвет агентов ИИ

Кибербезопасность — ахиллесова пята будущего с агентами ИИ. Даже при росте надежности простые атаки могут помешать компаниям развертывать их массово.

Исследования одно за другим выявляют серьезные дыры: чем автономнее и способнее агент, тем проще его сломать. Самая частая атака — инъекция промтов, когда вредные команды вкрадываются в текст и перехватывают агента незаметно для пользователя. Крупное красное тестирование показало: все проверенные ИИ-агенты взломали хотя бы раз, иногда с утечкой данных или незаконными действиями.

Ученые из Колумбийского университета и Университета Мэриленда продемонстрировали, как легко обмануть агентов с веб-доступом: в одном тесте они выдали конфиденциальные данные вроде номеров карт в 10 из 10 попыток. Атаки «банально просты» и не требуют знаний машинного обучения.

Даже CEO OpenAI Сэм Альтман предостерегает от поручения агентам ИИ задач с высокими ставками или чувствительными данными — давать только минимум доступа. Уязвимость в ChatGPT, позволявшая атакующим добираться до email-данных, подтверждает: даже топовые продукты лидеров рынка не застрахованы.

Компании в тупике: сейчас риск управляют, ограничивая системы строгими параметрами, жестким доступом, меньшим числом инструментов и обязательным человеческим контролем на каждом шаге.

DeepMind выявила шесть ловушек для ИИ-агентов

Скрытые указания на сайтах заставляют агентов подчиняться

Отравленная память и перехват действий

Атаки на группы агентов способны запустить цепочку сбоев

Ловушки сочетаются в сложные комбинации

Кибербезопасность тормозит расцвет агентов ИИ

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде