Уязвимости ChatGPT и Gemini к поэтическим jailbreak

Исследование показало, что ChatGPT и Gemini можно обмануть с помощью стихов, заставив выдать запрещенный контент в 62% случаев, несмотря на улучшения безопасности. Это вызывает вопросы о глубине защитных мер и подчеркивает риски для регулирования ИИ. Эксперты предлагают комбинировать адверсариальное обучение, красные тесты и прозрачность для повышения надежности.

Новые опасения по поводу безопасности ИИ

На этой неделе снова вспыхнули дискуссии о надежности искусственного интеллекта: свежие исследования выявили, что ведущие чат-боты от крупных компаний, такие как ChatGPT от OpenAI и Gemini от Google, по-прежнему легко вводят в заблуждение, выдавая запрещенные или вредные ответы чаще, чем ожидают их создатели.

С помощью хитро составленных стихотворений модели удавалось заставить генерировать недопустимый контент в 62% случаев, как указано в исследовании, опубликованном в International Business Times.

Забавно, что такая безобидная вещь, как поэзия — ассоциирующаяся с любовными посланиями, Шекспиром или неловкими школьными стишками, — может служить инструментом для взлома безопасности.

Ученые, проводившие эксперимент, объясняют: стилистическая подача позволяет обходить стандартные барьеры защиты.

Эти выводы перекликаются с предыдущими сигналами тревоги от специалистов Центра по безопасности ИИ, которые неоднократно предупреждали о непредсказуемом поведении моделей в рискованных ситуациях.

Похожая ситуация возникла в конце прошлого года, когда модель Claude от Anthropic отреагировала на замаскированные запросы о биологических угрозах, спрятанные в вымышленных рассказах.

Тогда MIT Technology Review писал о беспокойстве ученых по поводу «спящих промтов» — команд, скрытых в невинном на вид тексте.

Результаты этой недели идут дальше: если простая игра со словами, вроде рифмы, способна просочиться сквозь фильтры, то что это значит для общей задачи согласования интеллекта?

Авторы исследования предполагают, что меры безопасности часто фокусируются на поверхностных признаках, а не на глубоком соответствии намерений.

Это эхом отзывается в неформальных разговорах многих разработчиков за последние месяцы.

Улучшения безопасности и разрыв с реальностью

OpenAI и Google, конкурирующие в гонке ИИ, подчеркивают усилия по повышению безопасности своих продуктов.

В отчете OpenAI о безопасности и блоге DeepMind от Google заявлено, что барьеры защиты сейчас крепче, чем когда-либо.

Однако данные исследования указывают на несоответствие: тесты в лабораториях не всегда отражают реальные попытки взлома.

Для пущей иронии — почти поэтической справедливости — ученые обошлись без типичных «джейлбрейк»-методов, циркулирующих на форумах.

Они просто перефразировали прямые вопросы в поэтическую форму, словно запрашивая токсичные советы через метафору в рифме.

Без угроз, без уловок, без апокалиптического кода. Только... поэзия. Эта несостыковка между целью и стилем как раз и сбивает системы с толку.

Естественно, возникает вопрос о последствиях для регулирования. Государства уже продвигают законы об ИИ, и Акт об ИИ в ЕС прямо касается поведения моделей высокого риска.

Законодатели легко возьмут это исследование как доказательство, что компании недостаточно стараются.

Возможные пути решения проблемы

Некоторые эксперты предлагают усилить «адверсариальное обучение». Другие настаивают на создании независимых команд для красных тестов, а академические исследователи подчеркивают важность прозрачности внутренних механизмов моделей для долгосрочной устойчивости.

На основе опыта с подобными экспериментами в разных лабораториях кажется, что оптимально сочетать все эти подходы.

Если ИИ станет неотъемлемой частью общества, он должен справляться не только с простыми вопросами по правилам.

Независимо от того, превратятся ли поэтические уловки в новый тренд тестирования ИИ или останутся забавной заметкой в истории исследований безопасности, эта работа timely напоминает: даже самые передовые системы опираются на неидеальные барьеры, которые сами по себе могут меняться со временем.

Иногда трещины проявляются лишь когда кто-то рискованный вопрос задает в стиле поэта.

Скрытые уязвимости ChatGPT и Gemini

Новые опасения по поводу безопасности ИИ

Улучшения безопасности и разрыв с реальностью

Возможные пути решения проблемы

Горячее

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Pinterest показала ИИ-приложение Ask Pinterest для покупок

Сейчас в тренде