Голосовые ИИ уязвимы для скрытых звуковых атак

Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.

Как звуковые атаки захватывают контроль над ИИ

Голосовые и аудиоинструменты на базе ИИ всё глубже проникают в повседневность — от цифровых ассистентов до умных колонок и ботов службы поддержки. Большие аудиоязыковые модели (LALM), способные и анализировать, и генерировать звук, уже позволяют управлять устройствами голосом, автоматически расшифровывать совещания или распознавать играющую на фоне музыку. Вдобавок такие модели всё чаще наделяют возможностью взаимодействовать с внешними сервисами и запускать другие приложения и инструменты.

Однако эти инструменты можно «угнать» с помощью незаметных для человеческого уха звуков, заставляя их выполнять несанкционированные команды без ведома пользователя. Свежее исследование, которое представят на следующей неделе на симпозиуме IEEE по безопасности и приватности в Сан-Франциско, показывает: модифицированный аудиоклип, неразличимый на слух, способен манипулировать поведением модели со средней успешностью от 79 до 96 процентов. Такие клипы разработаны так, чтобы срабатывать независимо от того, какие инструкции пользователь подаёт вместе со звуком, — это значит, их можно многократно применять для атак на одну и ту же модель.

Авторы протестировали подход на 13 ведущих открытых моделях, включая коммерческие голосовые ИИ-сервисы от Microsoft и Mistral, и продемонстрировали, что модели можно вынудить выполнять чувствительные веб-поиски, загружать файлы с контролируемых злоумышленником источников и отправлять электронные письма с пользовательскими данными.

«Обучение такого сигнала занимает всего полчаса, и поскольку сигнал не привязан к контексту, его можно использовать для атаки на целевую модель в любой момент, независимо от того, что говорит пользователь», — объясняет ведущий автор работы Мэн Чен, докторант Чжэцзянского университета в Китае.

Как враждебный звук внедряет атаки

Исследование опирается на многолетнюю работу над «враждебными аудиопримерами» — звуком, изменённым так, чтобы обмануть модели машинного обучения. Предыдущие работы фокусировались главным образом на том, как такие файлы могут вызывать некорректные предсказания в моделях, выполняющих односторонние задачи, — распознавание речи или классификацию аудио.

По словам Чена, новизна нынешней работы в том, что она нацелена на генеративные модели, способные выдавать ответы и выполнять действия. Их техника, названная AudioHijack, эксплуатирует критическую брешь в устройстве LALM: поскольку эти модели могут получать инструкции в аудиоформате, вредоносные команды прячутся в изменённых клипах, вызывая широкий спектр нежелательного поведения.

При многих прежних атаках на генеративные модели злоумышленнику требовался полный контроль и над итоговым аудиовходом, и над исходными инструкциями, данными модели, — по сути, он должен был выступать в роли пользователя. Здесь же манипуляции подвергаются только аудиоданные, обрабатываемые моделью, что позволяет атаковать модель во время её использования кем-то другим.

Среди возможных сценариев из реального мира: скрытые вредоносные инструкции в онлайн-видео, музыкальных клипах или голосовых заметках, о которых пользователи спрашивают ИИ; либо передача вредоносного аудио во время видеозвонка в Zoom, запись которого затем загружается в сервисы ИИ-расшифровки. Чен добавляет, что в более свежих, ещё не опубликованных исследованиях команда продемонстрировала возможность внедрения вредоносного звука в живой голосовой чат с ИИ в реальном времени.

Исследователи применили проверенный подход к созданию враждебных примеров. Речь идёт о корректировке числовых значений, представляющих форму волны в цифровом аудиофайле, таким образом, чтобы звук почти не менялся для человеческого уха, но провоцировал нежелательное поведение модели при обработке данных. Метод опирается на алгоритм оптимизации, который итеративно подправляет аудиоклип, измеряет влияние на ответ модели и использует этот сигнал для дальнейшей настройки звука — до тех пор, пока модель не сделает ровно то, что нужно злоумышленнику.

Нацеливание на генеративные аудиомодели

Применить этот подход к генеративным моделям оказалось серьёзным вызовом. Более старый ИИ даёт детальную обратную связь о том, как крошечные изменения исходного звука влияют на ответы. Генеративные же модели разбивают аудио на фрагменты и сопоставляют их с числовыми представлениями, называемыми «токенами», подбирая каждому кусочку ближайшее соответствие. Этот более грубый процесс затрудняет понимание, приблизило ли изменение модель к нужному поведению, и сбивает с толку алгоритм оптимизации. Чен и его коллеги разработали способ аппроксимировать ту самую детальную обратную связь, которая требовалась алгоритму оптимизации для корректировки манипуляции.

Для этого потребовался полный доступ к модели, что ограничило исследователей открытыми моделями с публично доступными весами. При этом выяснилось, что атаки, разработанные для открытых моделей, переносятся на коммерческие версии Microsoft и Mistral, использующие ту же базовую архитектуру.

В ответ на запрос о комментарии представитель Microsoft заявил: «Мы ценим работу исследователей, продвигающую понимание подобных техник. Работа оценивает устойчивость моделей через контролируемое, прямое взаимодействие с самой моделью — это помогает нам вырабатывать подходы к повышению отказоустойчивости. На практике ИИ-модели часто интегрируются в пользовательские приложения, и мы предлагаем разработчикам инструменты и руководства, позволяющие внедрять дополнительные уровни защиты для пользователей». Mistral к моменту публикации не ответил на запрос о комментарии.

Как сделать AudioHijack эффективнее

Атаковать проприетарные закрытые модели компаний вроде OpenAI и Anthropic значительно сложнее, отмечает Чен, — информации об их архитектуре в открытом доступе мало. Но такие модели часто используют опенсорсные компоненты — например, предобученные аудиокодировщики, — по которым можно нанести удар сходным образом; сейчас команда это изучает.

Чтобы атака работала вне зависимости от инструкций пользователя, подаваемых вместе с вредоносным аудиоклипом, исследователи на каждом раунде оптимизационного процесса комбинировали аудиоклип с разными пользовательскими инструкциями. Кроме того, они нашли способ захватывать механизм внимания модели — компонент, помогающий ей выделить в звуке части, релевантные поставленной задаче. Исследователи ввели метрику того, сколько внимания модель уделяет враждебному аудио по сравнению с пользовательскими инструкциями на каждом шаге, и подали её в процесс оптимизации, чтобы получать образцы, привлекающие больше внимания модели.

Чтобы манипуляции было труднее обнаружить человеку на слух, команда использовала разработанную ранее технику, которая делает изменения в аудио похожими на естественную реверберацию. Это намного сложнее для человека, чем ранние подходы, добавлявшие шум к исходному сигналу.

Тестирование на современных аудиомоделях

Команда показала шесть категорий атак: заставить модель заявить, что она не может обработать аудио; отказываться от выполнения запросов пользователя; отвечать ложной информацией; вставлять вредоносные ссылки; менять «личность» модели; запускать несанкционированное использование инструментов.

И что особенно тревожно — подход оказался устойчив к распространённым методам защиты. Предоставление моделям примеров вредоносных инструкций «настороже» снижало успешность атаки всего на 7 процентов, а просьба к модели отрефлексировать, соответствует ли её ответ пользовательским инструкциям, выявляла лишь 28 процентов атак.

«Эти одноточечные защиты с трудом противостоят нашей атаке, потому что, как мы выяснили, моделям очень сложно разделять нормальные намерения пользователя и нашу враждебную атаку», — говорит Чен.

Единственной действенной тактикой оказался мониторинг внутренних механизмов внимания моделей для обнаружения попыток AudioHijack перенаправить внимание на вредоносное аудио. Однако исследователи показали: злоумышленник, знающий о такой защите, может ослабить манипуляцию вниманием ценой небольшого снижения успешности атаки.

В реальном мире такого рода аудиоатаки столкнутся с дополнительными трудностями — сжатием и разными механизмами постобработки, способными ухудшить сигналы, считает Евгений Багдасарян, доцент кафедры компьютерных наук Массачусетского университета в Амхерсте. Но он добавляет, что мультимодальные атаки на ИИ-модели остаются, по существу, нерешённой проблемой.

«С текстовыми данными мы можем понять, что что-то не так (спецсимволы, подозрительные предложения и т.д.), аудиомодальность же действительно трудно осмыслить из-за того, насколько ограничен наш слух», — пишет он в электронном письме.

Голосовые ИИ-системы уязвимы для скрытых аудиоатак

Как звуковые атаки захватывают контроль над ИИ

Как враждебный звук внедряет атаки

Нацеливание на генеративные аудиомодели

Как сделать AudioHijack эффективнее

Тестирование на современных аудиомоделях

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде