Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Прорыв в антагонистическом обучении для реального времени ИИ-безопасности

Прорыв в антагонистическом обучении позволяет внедрять реальную защиту ИИ без задержек, благодаря сотрудничеству Microsoft и NVIDIA. Оптимизации на GPU и специализированные токенизаторы снижают latency в 160 раз, обеспечивая точность выше 95 процентов. Это помогает компаниям противостоять эволюционирующим угрозам вроде vibe-кодинга в реальном времени.

26 ноября 2025 г.
5 мин
0

Преимущества антагонистического обучения в реальном времени

Возможность применять антагонистическое обучение для защиты ИИ в реальном времени дает серьезное преимущество перед статичными методами обороны.

Появление атак на базе ИИ, которые используют подкрепляющее обучение (RL) и возможности больших языковых моделей (LLM), привело к новым типам угроз вроде vibe-кодинга и адаптивных атак, эволюционирующих быстрее, чем успевают реагировать человеческие команды. Это создает риски для управления и операций в компаниях, которые нельзя устранить только политиками.

Злоумышленники теперь применяют многошаговое рассуждение и автоматическую генерацию кода, чтобы обходить стандартные защиты. В результате отрасль переходит к автономной обороне — системам, которые учатся, предугадывают и реагируют умно, без участия человека.

Переход к таким продвинутым моделям обороны всегда упирался в серьезную проблему: задержки.

Антагонистическое обучение, при котором модели угроз и защиты обучаются друг против друга непрерывно, позволяет противостоять вредоносным угрозам ИИ-безопасности. Однако внедрение необходимых архитектур на базе трансформеров в рабочую среду приводит к узкому месту.

Вызовы latency и точности в производстве

Абе Староста, менеджер по прикладным исследованиям в Microsoft NEXT.ai, отметил: «Антагонистическое обучение работает в производстве только когда задержки, пропускная способность и точность развиваются вместе».

Вычислительные затраты на запуск этих плотных моделей раньше заставляли руководителей выбирать между точным обнаружением (которое работает медленно) и эвристиками с высокой пропускной способностью (но меньшей точностью).

Совместная работа инженеров Microsoft и NVIDIA демонстрирует, как ускорение аппаратной части и оптимизация на уровне ядер снимают этот барьер, делая антагонистическую оборону в реальном времени возможной для крупных предприятий.

Для работы трансформерных моделей с живым трафиком командам пришлось разобраться с ограничениями инференса на CPU. Обычные процессоры не справляются с объемом и скоростью производственных нагрузок при использовании сложных нейронных сетей.

В базовых тестах, проведенных исследователями, конфигурация на CPU показала задержку от начала до конца в 1239,67 мс при пропускной способности всего 0,81 запроса в секунду. Для банка или глобальной платформы электронной коммерции задержка в одну секунду на каждый запрос неприемлема.

Переход на архитектуру с ускорением GPU (конкретно на блоках NVIDIA H100) снизил базовую задержку до 17,8 мс. Но только аппаратные улучшения не хватило для строгих требований реального времени в ИИ-безопасности.

Дальнейшая оптимизация движка инференса и процессов токенизации позволила командам достичь финальной задержки от начала до конца в 7,67 мс — ускорение в 160 раз по сравнению с базой на CPU. Такое сокращение укладывается в допустимые пределы для анализа трафика в реальном времени, позволяя развертывать модели обнаружения с точностью выше 95 процентов на бенчмарках антагонистического обучения.

Оптимизация предобработки данных

Один из операционных барьеров, выявленный в проекте, дает полезный урок для технических директоров, отвечающих за интеграцию ИИ. Хотя сама модель классификатора требует много вычислений, конвейер предобработки данных — особенно токенизация — стал вторым узким местом.

Стандартные методы токенизации, часто основанные на разделении по пробелам, подходят для обработки естественного языка (например, статей и документации). Они не годятся для данных кибербезопасности, состоящих из плотных строк запросов и машинно-генерируемых пакетов без естественных пауз.

Чтобы решить эту задачу, инженеры создали токенизатор, адаптированный под сферу безопасности. Интеграция точек сегментации, учитывающих особенности структуры машинных данных, обеспечила более детальный параллелизм. Этот специализированный подход для безопасности сократил задержку токенизации в 3,5 раза, подчеркивая, что готовые компоненты ИИ часто нуждаются в доработке под конкретные области для эффективной работы в узких нишах.

Интеграция стека инференса и ключевые оптимизации

Для таких результатов потребовался цельный стек инференса, а не разрозненные улучшения. Архитектура использовала NVIDIA Dynamo и Triton Inference Server для сервировки, плюс реализацию TensorRT классификатора угроз от Microsoft.

Процесс оптимизации включал слияние ключевых операций — таких как нормализация, встраивание и функции активации — в единые кастомные ядра CUDA. Это минимизирует трафик памяти и накладные расходы на запуск, которые часто незаметно тормозят производительность в высокочастотной торговле или приложениях безопасности. TensorRT автоматически сливал операции нормализации с предыдущими ядрами, а разработчики создали кастомные ядра для внимания с скользящим окном.

Эти конкретные оптимизации инференса сократили задержку прямого прохода с 9,45 мс до 3,39 мс — ускорение в 2,8 раза, которое внесло основной вклад в общее снижение задержек.

Рэйчел Аллен, менеджер по кибербезопасности в NVIDIA, пояснила: «Защита предприятий требует соответствия объему и скорости данных кибербезопасности, а также адаптации к темпу инноваций злоумышленников».

«Оборонные модели нуждаются в сверхнизкой задержке для работы на полной скорости линии и в гибкости для защиты от свежих угроз. Комбинация антагонистического обучения с моделями обнаружения на базе трансформеров, ускоренными NVIDIA TensorRT, именно это и обеспечивает».

Широкие последствия для инфраструктуры предприятий

Успех в этой области указывает на общую необходимость для инфраструктуры компаний. Поскольку атакующие используют ИИ для мутации угроз в реальном времени, механизмы безопасности должны иметь запас вычислительной мощности для запуска сложных моделей инференса без добавления задержек.

Зависимость от CPU для продвинутого обнаружения угроз становится слабым звеном. Как рендеринг графики перешел на GPU, так и инференс безопасности в реальном времени требует специализированного оборудования, чтобы поддерживать пропускную способность выше 130 запросов в секунду при надежном покрытии.

Кроме того, универсальные модели ИИ и токенизаторы часто подводят на специализированных данных. Vibe-кодинг и сложные пакеты современных угроз требуют моделей, обученных именно на вредоносных паттернах, и сегментации входов, отражающей реальность машинных данных.

В перспективе развитие безопасности включает обучение моделей и архитектур специально для устойчивости к антагонизму, возможно, с использованием квантизации для дополнительного ускорения.

Непрерывное совместное обучение моделей угроз и обороны позволяет организациям создать основу для защиты ИИ в реальном времени, которая масштабируется с ростом сложности новых угроз. Прорыв в антагонистическом обучении показывает, что технология для баланса задержек, пропускной способности и точности уже готова к развертыванию сегодня.