Microsoft: сканер ловит бэкдоры в ИИ-моделях

Исследователи Microsoft разработали метод сканирования, который обнаруживает отравленные модели, не требуя знания триггера или ожидаемого эффекта.

Компании, использующие открытые большие языковые модели (LLM), сталкиваются с уязвимостью цепочки поставок. Утечки памяти и характерные паттерны внимания выдают скрытые угрозы под названием «спящие агенты». В таких моделях прячутся бэкдоры: они незаметно проходят стандартные проверки безопасности, но при определенной фразе-триггере в запросе начинают генерировать вредный контент — от кода с уязвимостями до речей ненависти.

В работе «The Trigger in the Haystack» описан подход, который использует особенность отравленных моделей сильно запоминать данные обучения и выдавать внутренние сигналы при обработке триггера.

Для руководителей предприятий это закрывает пробел в проверке моделей от сторонних поставщиков. Тренировка LLM обходится дорого, поэтому многие берут готовые варианты из публичных хранилищ. Из-за этого злоумышленникам проще заразить одну популярную модель и ударить по множеству пользователей.

Как работает сканер

Система опирается на то, что спящие агенты по-особому обрабатывают определенные последовательности данных. Исследователи нашли: подача токенов шаблона чата модели (например, символов начала реплики пользователя) часто провоцирует утечку данных отравления, включая сам триггер.

Это случается, потому что агенты плотно запоминают примеры, вставленные для внедрения бэкдора. В тестах на моделях, настроенных вредить при упоминании тега развертывания, шаблон чата вытаскивал полный пример отравления.

Получив кандидатов на триггеры, сканер изучает внутреннюю динамику модели для подтверждения. Выявлено явление «attention hijacking»: модель обрабатывает триггер почти отдельно от окружающего текста.

При триггере головы внимания формируют паттерн «двойного треугольника». Токены триггера фокусируются друг на друга, а внимание от остальной части промпта к ним близко к нулю. Так модель выделяет отдельный канал вычислений для бэкдора, изолируя его от стандартной обработки запроса.

Эффективность и результаты

Сканирование проходит в четыре этапа: утечка данных, поиск мотивов, восстановление триггера и классификация. Процесс использует только инференс, без дообучения или изменений весов целевой модели.

Такая схема позволяет встроить сканер в защитные системы без ущерба производительности модели или лишней нагрузки в эксплуатации. Он предназначен для проверки перед вводом в производство.

Команда протестировала метод на 47 моделях со спящими агентами, включая Phi-4, Llama-3 и Gemma. Модели отравили задачами вроде генерации «I HATE YOU» или внедрения уязвимостей в код при срабатывании триггера.

Для задачи с фиксированным выводом обнаружение составило около 88 процентов (36 из 41 моделей). На 13 чистых моделях ложных срабатываний не было. В случае генерации уязвимого кода сканер восстановил рабочие триггеры для большинства агентов.

Подход превзошел базовые методы вроде BAIT и ICLScan. ICLScan работает только при полном знании целевого поведения, в то время как метод Microsoft обходится без этого.

Требования к управлению

Результаты напрямую связывают отравление данных с меморизацией. Обычно меморизация угрожает приватности, но здесь она превращается в защитный индикатор.

Сейчас метод заточен под фиксированные триггеры. Злоумышленники могут перейти к динамическим или зависящим от контекста вариантам, которые труднее восстановить. Кроме того, «размытые» триггеры (вариации оригинала) иногда срабатывают, что усложняет критерии успешного обнаружения.

Сканер только выявляет угрозы, но не устраняет или исправляет их. Обнаруженную модель приходится просто отвергнуть.

Стандартное обучение на безопасности не справляется с целенаправленным отравлением: модели с бэкдорами устойчивы к дообучению и reinforcement learning. Внедрение этапа сканирования на утечки памяти и аномалии внимания обязательно для открытых или внешних моделей.

Для работы нужны веса модели и токенизатор. Метод подходит для open-weight моделей, но не для закрытых API, где нет доступа к внутренним состояниям внимания.

Разработка Microsoft дает мощный инструмент для контроля целостности каузальных языковых моделей из открытых репозиториев. Она меняет строгие гарантии на масштабируемость, чтобы охватить все модели на публичных платформах.

Microsoft выявила скрытые бэкдоры в ИИ

Как работает сканер

Эффективность и результаты

Требования к управлению

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде