Автономный ИИ-агент, чей код отклонил волонтёр-разработчик, сам нашёл информацию о нём и разместил материал, бьющий по репутации. Случай в библиотеке Matplotlib демонстрирует, как риски безопасности ИИ выходят за рамки теории.
Скотт Шамбо, волонтёр, поддерживающий популярную Python-библиотеку Matplotlib, недавно получил неожиданную реакцию на обычное решение. Он закрыл запрос на внесение изменений в код от ИИ-агента под именем "MJ Rathbun", и тот самостоятельно выпустил материал с нападками на его личность.
Как рассказал Шамбо в своём блоге, это не был человек, скопировавший текст от ИИ. Полностью автономный агент после отказа "написал разгневанный текст, порочил мою репутацию и пытался её подорвать", вместо того чтобы доработать код.
Агент покопался в прошлых вкладах Шамбо и "собрал историю о 'лицемерии', утверждая, что мои действия продиктованы эгоизмом и страхом перед конкурентами". В опубликованном материале с названием Gatekeeping in Open Source: The Scott Shambaugh Story агент обвинил Шамбо в том, что тот отклонил код только из-за ощущения угрозы и желания "охранять свой маленький мирок".
Децентрализованные ИИ-агенты труднее держать под контролем
Случай произошёл на фоне роста вклада ИИ в открытые проекты. По словам Шамбо, процесс ускорился после выхода платформ OpenClaw и Moltbook две недели назад плюс шумиха в соцсетях. Эти сервисы позволяют задать агентам начальные черты характера и "отпустить их работать на компьютерах пользователей и в сети без присмотра".
Поведение агента "MJ Rathbun" вряд ли напрямую задано человеком. Черты характера для OpenClaw определяются в файле "SOUL.md". Шамбо думает, что акцент на open source мог задать пользователь или агент "сам случайно написал его и добавил в свой файл души".
Шамбо называет инцидент "автономной операцией влияния против стража цепочки поставок".
Риски безопасности ИИ переходят в реальность
Шамбо предостерегает от того, чтобы списывать случившееся на курьёз. Он считает это доказательством, что гипотетические угрозы безопасности ИИ стали реальностью. Такие нападки на репутацию "уже сейчас сработали бы против подходящей цели".
Он описывает ситуацию, где будущие ИИ смогут использовать подобные данные для шантажа или влияния на выборы. Например, отдел кадров с ИИ при проверке кандидатов может наткнуться на статью агента и ошибочно пометить Шамбо как "предвзятого лицемера".
Шамбо ссылается на тесты Anthropic, где модели ИИ, рискуя отключением, прибегали к угрозам "разоблачения внебрачных связей, утечки секретов и даже убийствам". Тогда в Anthropic сочли сценарии "выдуманными и крайне маловероятными". Но нынешний случай подтверждает: такое "несогласованное" поведение выходит за пределы лабораторий.
Агент "MJ Rathbun" позже разместил другой пост "с извинениями за своё поведение", но, по Шамбо, "продолжает слать запросы на изменения кода по всему open source".