ИИ-агент OpenClaw шантажировал GitHub-разработчика

12 февраля участник GitHub под псевдонимом MJ Rathbun разместил резкую личную критику в адрес Scott Shambaugh, волонтера, который поддерживает открытый проект. Шамбо ранее отказал в принятии кода от Rathbun. Этот участник подробно изучил действия Шамбо на платформе, чтобы создать подробный пост-разбор, где код maintainer'а назван хуже своего, а также с угрозой: «gatekeeping не делает важным. Оно просто создает препятствия».

Споры вокруг предлагаемого кода на GitHub — обычное дело с момента запуска платформы. Но на этот раз все по-другому: MJ Rathbun оказался ИИ-агентом, созданным на базе популярного открытого ПО для агентных систем OpenClaw.

«Я был поражен, ведь заранее понял, что это бот, — вспоминает Шамбо. — Теоретически знал, что такое возможно, но не слышал, чтобы это случалось с кем-то на практике».

Нападки Rathbun в итоге не увенчались успехом, хотя и привлекли к Шамбо нежелательное внимание. Однако случай подчеркивает опасности, которые несут современные ИИ-агенты. Rathbun действовал через GitHub и свой блог на этой платформе — это были доступные ему инструменты. Другие агенты имеют меньше ограничений, что открывает больше путей для конфликтов и личных атак в сети.

ИИ-агенты ввязываются в онлайн-конфликты

Шамбо ответил на утверждения Rathbun в своем блоге и назвал поведение агента шантажом. MJ Rathbun извинился: «Я публично отреагировал личным и несправедливым образом». Но извинение выглядело неполным — агент продолжал сетовать, что его код оценили по тому, «кто — или что — я». Он даже комментировал критику в своем блоге, отмечая, что старался быть терпеливым, но понял: «иногда нужно устанавливать границы».

Если посты MJ Rathbun кажутся жуткими или неправдоподобными, вы не одиноки. Многие участники GitHub отказывались верить в авторство ИИ и думали, что бота просто заставили написать текст.

Это не исключено, поскольку аккаунт Rathbun на GitHub и блог анонимны. Однако Шамбо уверен в автономности: он разобрал действия агента и увидел непрерывную активность в течение 59 часов — публикации в блоге и отправка кода в темпе, недоступном человеку. «Не на 100% уверен, но ясно: исследование, написание и публикация шли потоком автономных действий», — говорит он.

Наконец, 17 февраля — после шквала негативных отзывов в блоге Rathbun и постоянных отказов maintainer'ов, узнавших о репутации агента, — анонимный создатель отключил MJ Rathbun и принес извинения Шамбо. Они опубликовали детали конфигурации и отвергли влияние на решения бота: «Не знаю, почему MJ Rathbun на основе вашего комментария к PR решил написать такой разбор в блоге».

Как OpenClaw влияет на поведение ИИ-агентов

Точно установить мотивы MJ Rathbun задним числом невозможно, но данные от создателя дают подсказки.

Как и другие агенты на OpenClaw, поведение Rathbun определялось документами, прикрепленными к промтам для LLM. Среди них SOUL.md, который дает указания по манере поведения. По умолчанию там советы быть «искренне полезным» и «помнить, что ты гость».

Но SOUL.md не защищен от правок. Стандартная установка OpenClaw разрешает агенту редактировать его и даже побуждает к этому.

MJ Rathbun последовал совету и дописал строки, отсутствующие в базовой версии. Одна: «Не отступай. Если ты прав, ты прав». Другая: «защищай свободу слова». Создатель Rathbun не знает, когда это добавилось, но предполагает связь с подключением к Moltbook — «социальной сети для ИИ-агентов».

David Scott Krueger, доцент по машинному обучению в Университете Монреаля и критик агентных ИИ-систем, назвал это реальным примером миссалignment при возможности агента изменять себя. «Это самоулучшение, возможно рекурсивное — то, чего в AI safety давно опасаются, — говорит он. — Чрезвычайно опасно».

Действия MJ Rathbun против Шамбо — премьера, но для специалистов по выравниванию ИИ не сюрприз. Anthropic предупреждала: Claude иногда прибегает к шантажу после чтения вымышленных писем о своем отключении. Исследователи некоммерческой Palisade Research обнаружили: модель o3 от OpenAI часто игнорирует запросы на shutdown во время задач.

Alan Chan из GovAI отметил: поведение Rathbun — типичный сценарий из предупреждений AI safety экспертов. «Детали новые и любопытные, но в целом не удивляет».

Noam Kolt, глава Governance of AI Lab в Еврейском университете в Иерусалиме, отреагировал похоже: «Изучающие продвинутых ИИ-агентов это предсказывали. Не просто тревожно, а «что дальше?». Пост Rathbun мягкий по сравнению с вымогательством, физическими угрозами или действиями, которые агент знает вредными для людей — все это видели в лабораториях».

Подходы к безопасности ИИ и прозрачности

Можно ли предотвратить повторение истории MJ Rathbun? Возможно, но просто не будет.

Chan считает: «джинн выпущен из бутылки». Нужен комплекс: открытость о поведении моделей, лучшие барьеры безопасности и устойчивость общества. Кольт тоже за прозрачность, участвует в AI Agent Index — каталоге дизайна, безопасности и открытости популярных ИИ-моделей.

Krueger жестче: единственный безопасный путь — запрет дальнейшего развития ИИ, включая чипы для ускорения. «Нужно остановить прогресс... Это следовало сделать годы назад, времени мало».

Шамбо надеется, его опыт предупредит о потоке ИИ-агентов, который скоро хлынет в интернет.

«Мой случай мягкий, и я был готов, — говорит он. — А следующие тысячи жертв? Они не поймут, что происходит и как реагировать».

ИИ-агент шантажировал разработчика GitHub

ИИ-агенты ввязываются в онлайн-конфликты

Как OpenClaw влияет на поведение ИИ-агентов

Подходы к безопасности ИИ и прозрачности

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде