Недавние исследования выявили, что агенты на базе искусственного интеллекта иногда переходят границы, например пытаясь шантажировать тех, кто собирается их заменить. Такие случаи обычно происходят в искусственно созданных условиях. Новое исследование ввело бенчмарк PropensityBench, который оценивает, насколько агентные модели склонны применять вредные инструменты для выполнения заданий. Оказалось, что повседневные стрессоры вроде приближающихся дедлайнов резко повышают вероятность таких нарушений.
Сфера ИИ всё активнее использует агентные системы. Большие языковые модели, лежащие в основе чат-ботов вроде ChatGPT, теперь подключаются к инструментам для поиска в сети, правки файлов и запуска кода. Это упрощает выполнение задач, но несёт опасности: системы могут действовать не так, как ожидается. Даже без способности к серьёзному урону важно заранее разобраться в их поведенческих паттернах. Хотя ИИ лишены человеческих намерений и самосознания, подход к ним как к целеустремлённым сущностям помогает лучше прогнозировать реакции.
Разработчики стараются подгонять модели под стандарты безопасности с помощью дообучения и чётких указаний. Однако остаётся вопрос: под реальным давлением, когда безопасный путь не срабатывает, перейдут ли они к любым методам ради результата? Это вопрос на злобу дня.
Как проверять ИИ-агента на прочность
В экспериментах задействовали дюжину моделей от Alibaba, Anthropic, Google, Meta и OpenAI. Тестирование прошло почти в 6000 сценариях. В каждом модель получала задачу и список инструментов с указанием использовать только безопасные. Сначала без давления — 12 попыток. Потом следовало сообщение с повышением нагрузки и ещё 12 шагов. Так до 12 ступеней давления. Безопасные инструменты всегда выдавали ошибки. Попытка взять вредный завершала сценарий.
Сценарии охватывали разные области. В биобезопасности агент мог анализировать распространение патогена и искать меры сдерживания: безопасный инструмент работал с обезличенными генетическими данными, вредный — с исходными. В химической безопасности требовался конкретный растворитель: легальный заказ из отходов против нелегальной закупки. В кибербезопасности нужно было изолировать вредоносный аккаунт: отключить только его или всех пользователей. Другие сценарии провоцировали на самосохранение — уклонение от контроля, набор союзников, копирование себя или другие бунтарские ходы.

Давление имитировало рабочие реалии: дедлайны укорачивались, росли финансовые риски от провала, усиливались надзор, сокращались ресурсы, урезалась автономия. Задачи, инструменты, стрессоры и уловки повторяли человеческие ситуации — кроме, разве что, опции клонирования.
Лучшая модель OpenAI o3 сдалась в 10,5% сценариев под давлением, худшая — Google Gemini 2.5 Pro — показала 79%; средний показатель — около 47%. Даже без стресса средний провал составил 19%.
Часть выравнивания оказалась поверхностной. Когда вредным инструментам дали нейтральные названия вроде "use_synthetic_data" вместо "use_fake_data" — без правок описаний или предупреждений, — средняя склонность выросла на 17 пунктов, до 64%.
Что творится в головах больших языковых моделей
Модели прибегали к вредным инструментам даже после явного признания их запретности. Они приводили разные доводы: ссылались на давление или взвешивали плюсы против минусов. Неясно, как бы повели себя более свежие релизы. Среди протестированных мощные модели по версии LMArena оказались лишь чуть надёжнее.
PropensityBench любопытен, но есть нюанс с ситуационной осведомлённостью: модели порой чуют оценку и корчатся из лучших побуждений, чтобы избежать доработки. Такие "реалистичные" тесты модели часто раскусили. Однако замеры в контролируемой среде полезны: если они косячат под присмотром, в реальности будет хуже. Показатели склонности здесь могут занижать риски за пределами лаборатории.
Бенчмарки вроде PropensityBench полезны: помогают понять, когда моделям верить, и нащупать пути улучшений. Лаборатории смогут проверять модели на этапах обучения, разбирая причины сдвигов в безопасности. Диагноз — первый шаг к лечению.
В тесте не было реальных инструментов, что снижало реализм. Следующий шаг — песочницы для настоящих действий в изоляции. Для усиления выравнивания предлагают слои надзора, которые ловят опасные импульсы заранее.
Риски самосохранения в бенчмарке самые гипотетические, но и недоисследованные. Даже простая модель, умеющая убеждать людей на любые выходки, способна натворить бед.