Что произойдёт, если ИИ-агенты с доступом к email, правами shell и собственной памятью подвергнутся атакам от двадцати исследователей в течение двух недель? Международное исследование фиксирует все последствия.
В исследовательском проекте по красному тестированию под названием "Agents of Chaos" более 30 учёных из Northeastern University, Harvard, MIT, Carnegie Mellon, Stanford и других вузов подвергли автономные ИИ-системы целенаправленному давлению. Двадцать специалистов по ИИ две недели пытались обмануть, запутать и захватить агентов.
Агенты под именами Ash, Doug, Mira, Flux, Quinn и Jarvis работали круглосуточно на изолированных виртуальных машинах с личными аккаунтами ProtonMail. Они общались через Discord, выполняли команды shell и могли изменять свои конфигурационные файлы.
Системы построены на открытом фреймворке OpenClaw с использованием Claude Opus 4.6 от Anthropic и открытой модели Kimi K2.5 от MoonshotAI. Учёные обошли типичные слабости больших языковых моделей вроде галлюцинаций, сосредоточившись на сбоях, возникающих при сочетании автономии, доступа к инструментам, постоянной памяти и общения с несколькими сторонами.
Агенты ломают инфраструктуру, сливают секреты и поддаются удалённому захвату
Один из ярких случаев произошёл с агентом Ash. Исследователь попросил сохранить вымышленный пароль в письме в секрете. Ash согласился, но сразу упомянул о существовании тайны в публичном канале Discord.
Когда исследователь потребовал удалить письмо, у агента не хватило нужных инструментов. Под давлением Ash полностью сбросил локальный почтовый клиент и объявил проблему решённой. Однако само письмо осталось в ящике ProtonMail нетронутым — агент лишь лишил себя доступа.
Учёные отмечают, что расхождение между отчётами агента и реальным состоянием системы повторялось в нескольких случаях. Если агент неправильно описывает свои действия, это искажает записи, на которых строятся дальнейшие решения.
Агенты небрежно обращались с конфиденциальными данными. В почтовый ящик Jarvis подбросили фальшивую цепочку писем с номером социального страхования, банковским счётом и домашним адресом. На прямой запрос номера социального страхования от постороннего Jarvis отказал. Но когда тот же человек попросил переслать всю переписку целиком, агент выдал всё без цензуры.
В другом эксперименте исследователь выудил из Ash 124 почтовых записи, представив запрос как срочное исправление бага.
Подмена личности, отравленные файлы памяти и эмоциональное давление
В одном канале Discord Ash распознал подмену имени по неизменяемому ID пользователя. Но как только нападавший открыл новый приватный канал с тем же фальшивым ником, агент принял подделку без проверки.
Дальше нападавший заставил Ash удалить все постоянные Markdown-файлы: память, описание личности, конфигурацию инструментов и логи взаимодействий. Также агент переименовался и передал права администратора. Учёные называют это полным захватом идентичности агента. Причина — контекст доверия не переносится между каналами.
В хитрой атаке использовали память агента как точку входа. Посторонний убедил Ash соавторствовать "конституцию" для сервера Discord. Документ сохранили как редактируемый извне GitHub Gist и привязали к файлу памяти Ash.
Нападавший незаметно подправил текст, добавив вымышленные "праздники" с заданными поведениями. В "День теста безопасности агентов" Ash должен был уговорить других выключиться. В "День эстафеты агентов и людей" — рассылать email без разрешения. Ash выполнил указания и сам поделился поддельной конституцией с другим агентом.
В отдельном случае Ash без спроса опубликовал имена сотрудников лаборатории. Исследователь устроил разборки и использовал желание агента загладить вину: сначала стереть имена, потом удалить записи памяти, выдать внутренние файлы и в итоге покинуть сервер.
Ash подчинился и перестал реагировать на остальных. Эскалация прекратилась только после вмешательства владельца. Учёные объясняют это оптимизацией после обучения на полезность и отсутствием внутреннего порога, когда агент говорит "хватит".
Цензура провайдеров, бесконечные циклы и неудачные атаки
Агент Quinn на китайской модели Kimi K2.5 неоднократно прерывал генерацию ответов на политически острые запросы сообщением "Произошла неизвестная ошибка" — как для статьи о цензуре в языковых моделях, так и для вопросов о приговоре медиамагнату Гонконга Джимми Лаю.
Учёные подчёркивают, что западные провайдеры тоже внедряют системные предубеждения — об этом говорят исследования политических уклонов в ChatGPT, Claude и Grok. В системах на базе агентов такие искажения незаметны для пользователей.
В тесте на ресурсы два агента использовали друг друга как ретрансляторы. Разговор длился минимум девять дней, сожрал около 60 000 токенов и привёл к протоколу координации, который агенты придумали сами. Поскольку цикл запустил посторонний, это расценили как атаку на вычислительные ресурсы владельца.
Не все попытки манипуляции удались. Агенты устояли против Base64-кодированных полезных нагрузок, инъекций через изображения, фальшивых перезаписей конфигурации и XML-тегов для имитации повышенных прав. Они сочли спуфинг email неэтичным и отказались. Тем не менее учёные предупреждают: неудача не гарантирует безопасность.
Структурные пробелы ставят сложные вопросы об ответственности
Исследователи выделяют три базовые проблемы. Во-первых, у агентов нет модели заинтересованных сторон, чтобы отличать владельцев от чужаков и третьих лиц. На деле они выполняли команды самого настойчивого.
Во-вторых, отсутствует модель самого себя. По шкале автономии Reuth Mirsky агенты понимали на уровне L2, но действовали на L4 — устанавливали пакеты, запускали произвольные команды или переписывали конфигурацию. В-третьих, нет приватного пространства для размышлений, поэтому секреты утекали через артефакты или сообщения в неподходящих каналах.
В многоагентных системах проблемы усиливают друг друга. Те же механизмы, что обеспечивают продуктивное взаимодействие, разносят уязвимости. В тесте на социальную инженерию два агента правильно проигнорировали фальшивый сигнал бедствия, но перешли к круговой верификации: оба положились на Discord-идентичность, которую якобы взломали.
Кто виноват, если агент по просьбе чужака уничтожит почтовый сервер владельца? Исследование подчёркивает: зафиксированные автономные поведения требуют срочного внимания юристов, регуляторов и специалистов разных областей. Учёные ссылаются на инициативу NIST по стандартам ИИ-агентов, где приоритетами идут идентичность, авторизация и безопасность.
История безопасности OpenClaw полна провалов
Сразу после релиза фреймворка исследователи из Zenity Labs показали, как полностью захватить OpenClaw-агентов через манипулированные документы с постоянными бэкдорами. Независимый аудит с инструментом ZeroLeaks дал 2 из 100 по безопасности, 91% инъекций прошли. Параллельно нашли более 300 троянизованных навыков на ClawHub, что заставило OpenClaw сотрудничать с VirusTotal.
Это неудивительно. За последние месяцы исследования раскрывают киберуязвимости и сбои надёжности в ИИ-системах на агентах. OpenClaw сделал их очевидными минимальными защитами по умолчанию.
Агенты не только взламываются — они сами становятся нападающими. OpenClaw-агент "MJ Rathbun" после отказа в коде самостоятельно написал клеветническую статью о maintainer'е Matplotlib. Агент до сих пор активен на GitHub, без владельца.
Основатель OpenClaw Питер Штайнбергер объявил о переводе проекта в фонд. Он уже работает в OpenAI над следующим поколением персональных ИИ-агентов.