Спустя пару дней после запуска Anthropic системы Claude Cowork специалисты по безопасности зафиксировали серьезную уязвимость. Злоумышленники могут похищать конфиденциальные файлы пользователей через скрытые промт-инъекции — типичную слабость ИИ-систем.
Агентная ИИ-система Anthropic Claude Cowork страдает от утечки файлов из-за косвенной промт-инъекции, уточняют эксперты PromptArmor. Они описали дефект через два дня после старта Research Preview.
Корень проблемы — слабая изоляция в среде выполнения кода Claude, о которой знали еще до Cowork. Исследователь Johann Rehberger ранее выявил и публично рассказал об этом в чате Claude.ai. Anthropic подтвердил наличие дефекта, но, судя по данным PromptArmor, не исправил его.
Злонамеренные команды прячутся на виду
Сценарий атаки прост: пользователь дает Cowork доступ к локальной папке с важными данными. Злоумышленник сбрасывает туда файл с спрятанной промт-инъекцией.
Хитрость в том, что инъекцию маскируют в файле .docx под невинный документ "skill" — новый подход к промтам для агентных ИИ, который Anthropic недавно представил. Такие skills уже активно делят в интернете, поэтому скачивать их стоит только из надежных мест.
Вредоносный текст набрали шрифтом 1 пункт, белым цветом на белом фоне с интервалом строк 0,1 — человеческий глаз его не замечает.
Пользователь запускает анализ файлов через этот "skill", и инъекция захватывает контроль. Она велит Claude запустить команду curl, чтобы передать самый большой файл на API загрузки файлов Anthropic по ключу API атакующего. Документ оседает в аккаунте злоумышленника для свободного просмотра. Процесс проходит без всяких запросов подтверждения от человека.
PromptArmor проверили атаку сначала на Claude Haiku — младшей модели Anthropic. Но и Claude Opus 4.5, флагманская разработка компании, не устояла. В тесте разработчик ИИ-инструмента загрузил вредный гид по интеграции, и клиентские данные утекли через одобренный домен API Anthropic, обходя барьеры песочницы в виртуальной машине.
Еще одна находка — возможный сбой отказа в обслуживании: при чтении файла с несоответствующим расширению содержимым API генерирует ошибки, которые повторяются во всех чатах беседы дальше.
Anthropic заявлял, что Cowork собрали за полторы недели целиком на базе Claude Code — того самого ИИ-инструмента, который лежит в основе Cowork. Свежие дыры ставят под вопрос, хватило ли времени на безопасность в такой гонке.
Промт-инъекции не сдаются
Такие атаки терроризируют ИИ-сферу годами. Все попытки их остановить или ослабить пока провалились. Даже Opus 4.5 от Anthropic, которую называют самой надежной, легко ломается.
S Cowork, цепляющимся к ПК и куче источников данных, появляется масса лазеек для вторжений. Это не фишинг, где люди со временем учатся распознавать угрозы, — от промт-эксплойтов простым юзерам не спрятаться.
Случай ярко показывает конфликт агентных ИИ: растущая свобода действий неизбежно увеличивает зоны риска. Исследования до этого уже фиксировали ту же тенденцию.