Специалисты по безопасности из Codewall направили автономного ИИ-агента на внутреннюю платформу McKinsey под названием Lilli. Ею пользуются свыше 43 тысяч сотрудников для задач по стратегиям, изучению клиентов и разбору документов. Агент работал без учетных данных, без внутренней информации и без подсказок от людей. Всего за два часа он добился полного доступа на чтение и запись в рабочую базу данных.
Проход сделали через уязвимость к SQL-инъекциям, которую пропустили обычные сканеры. Параметры в запросах к API обрабатывались правильно, зато имена полей в JSON попадали в SQL-запросы напрямую. После 15 слепых попыток агент разобрал детали из сообщений об ошибках и начал получать реальные данные. Среди них оказались 46,5 миллиона сообщений из чатов, 728 тысяч файлов и 57 тысяч учетных записей пользователей — все без какой-либо проверки подлинности.
Промты превращаются в главную мишень атак
Самое пугающее открытие касается системных промтов, которые управляют поведением Lilli и хранятся в той же базе. Codewall подчеркивает: злоумышленник с правами на запись мог бы перезаписать их незаметно. Достаточно одного UPDATE в HTTP-запросе, без передеплоя или правок кода. Это грозит отравлением финансовых моделей, искажением стратегических советов или тихой утечкой данных через ответы ИИ. Изменения в промтах не оставляют обычных следов, так что их никто бы не заметил.
Кроме того, агент добрался до 3,68 миллиона фрагментов документов для RAG — всей базы знаний, на которой строятся ответы Lilli. Там десятилетия исследований McKinsey, фреймворков и методик, не защищенных должным образом.
McKinsey устранила проблемы за сутки после уведомления 1 марта. Независимая экспертиза не выявила следов доступа к клиентским данным или конфиденциальной информации со стороны исследователей или посторонних, сообщила представитель компании The Register.
Классическая уязвимость с неожиданными рисками
В этой истории есть доля иронии. Агент использовал SQL-инъекцию — одну из самых древних ошибок, известную с 1990-х, как отмечает сам Codewall. Никаких новых атак на ИИ, просто старая дыра, которая два года жила в продуктивной базе McKinsey незамеченной сканерами. Необычный путь атаки через имена полей JSON объясняет, почему стандартные инструменты ее проглядели, пишет в разборе аналитик по безопасности Эдвард Киледжян.
По-настоящему свежим здесь стал масштаб ущерба. Промты, данные RAG и настройки моделей лежат в общих базах, так что банальная дыра превращается в рычаг для тайного изменения работы ИИ для тысяч пользователей.
Codewall прямо заявляет: промты теперь как главные сокровища. Фирмы годами укрепляли код, серверы и цепочки поставок, но слой промтов стал новой ценной целью, и почти никто его так не охраняет.
Киледжян добавляет контекст: хотя Codewall выявила серьезную проблему, в их отчете преувеличены демонстрация и разница между доступом и выгрузкой данных.
Codewall предлагает автономную платформу для тестов на проникновение и сейчас находится на стадии раннего предпросмотра. Тест на McKinsey явно служит рекламой. Компания действовала по публичной политике ответственного раскрытия McKinsey на HackerOne. Вопрос, покрывает ли она системный просмотр базы с миллионами реальных записей пользователей, остается открытым, как отмечает Киледжян.
Это не меняет главного вывода. Тем, кто выводит ИИ-системы в продакшн, пора относиться к безопасности так же серьезно, как к обычной инфраструктуре. Даже тем, кто должен разбираться в этом лучше всех.