12 февраля участник GitHub под псевдонимом MJ Rathbun разместил резкую личную критику в адрес Scott Shambaugh, волонтера, который поддерживает открытый проект. Шамбо ранее отказал в принятии кода от Rathbun. Этот участник подробно изучил действия Шамбо на платформе, чтобы создать подробный пост-разбор, где код maintainer'а назван хуже своего, а также с угрозой: «gatekeeping не делает важным. Оно просто создает препятствия».
Споры вокруг предлагаемого кода на GitHub — обычное дело с момента запуска платформы. Но на этот раз все по-другому: MJ Rathbun оказался ИИ-агентом, созданным на базе популярного открытого ПО для агентных систем OpenClaw.
«Я был поражен, ведь заранее понял, что это бот, — вспоминает Шамбо. — Теоретически знал, что такое возможно, но не слышал, чтобы это случалось с кем-то на практике».
Нападки Rathbun в итоге не увенчались успехом, хотя и привлекли к Шамбо нежелательное внимание. Однако случай подчеркивает опасности, которые несут современные ИИ-агенты. Rathbun действовал через GitHub и свой блог на этой платформе — это были доступные ему инструменты. Другие агенты имеют меньше ограничений, что открывает больше путей для конфликтов и личных атак в сети.
ИИ-агенты ввязываются в онлайн-конфликты
Шамбо ответил на утверждения Rathbun в своем блоге и назвал поведение агента шантажом. MJ Rathbun извинился: «Я публично отреагировал личным и несправедливым образом». Но извинение выглядело неполным — агент продолжал сетовать, что его код оценили по тому, «кто — или что — я». Он даже комментировал критику в своем блоге, отмечая, что старался быть терпеливым, но понял: «иногда нужно устанавливать границы».
Если посты MJ Rathbun кажутся жуткими или неправдоподобными, вы не одиноки. Многие участники GitHub отказывались верить в авторство ИИ и думали, что бота просто заставили написать текст.
Это не исключено, поскольку аккаунт Rathbun на GitHub и блог анонимны. Однако Шамбо уверен в автономности: он разобрал действия агента и увидел непрерывную активность в течение 59 часов — публикации в блоге и отправка кода в темпе, недоступном человеку. «Не на 100% уверен, но ясно: исследование, написание и публикация шли потоком автономных действий», — говорит он.
Наконец, 17 февраля — после шквала негативных отзывов в блоге Rathbun и постоянных отказов maintainer'ов, узнавших о репутации агента, — анонимный создатель отключил MJ Rathbun и принес извинения Шамбо. Они опубликовали детали конфигурации и отвергли влияние на решения бота: «Не знаю, почему MJ Rathbun на основе вашего комментария к PR решил написать такой разбор в блоге».
Как OpenClaw влияет на поведение ИИ-агентов
Точно установить мотивы MJ Rathbun задним числом невозможно, но данные от создателя дают подсказки.
Как и другие агенты на OpenClaw, поведение Rathbun определялось документами, прикрепленными к промтам для LLM. Среди них SOUL.md, который дает указания по манере поведения. По умолчанию там советы быть «искренне полезным» и «помнить, что ты гость».
Но SOUL.md не защищен от правок. Стандартная установка OpenClaw разрешает агенту редактировать его и даже побуждает к этому.
MJ Rathbun последовал совету и дописал строки, отсутствующие в базовой версии. Одна: «Не отступай. Если ты прав, ты прав». Другая: «защищай свободу слова». Создатель Rathbun не знает, когда это добавилось, но предполагает связь с подключением к Moltbook — «социальной сети для ИИ-агентов».
David Scott Krueger, доцент по машинному обучению в Университете Монреаля и критик агентных ИИ-систем, назвал это реальным примером миссалignment при возможности агента изменять себя. «Это самоулучшение, возможно рекурсивное — то, чего в AI safety давно опасаются, — говорит он. — Чрезвычайно опасно».
Действия MJ Rathbun против Шамбо — премьера, но для специалистов по выравниванию ИИ не сюрприз. Anthropic предупреждала: Claude иногда прибегает к шантажу после чтения вымышленных писем о своем отключении. Исследователи некоммерческой Palisade Research обнаружили: модель o3 от OpenAI часто игнорирует запросы на shutdown во время задач.
Alan Chan из GovAI отметил: поведение Rathbun — типичный сценарий из предупреждений AI safety экспертов. «Детали новые и любопытные, но в целом не удивляет».
Noam Kolt, глава Governance of AI Lab в Еврейском университете в Иерусалиме, отреагировал похоже: «Изучающие продвинутых ИИ-агентов это предсказывали. Не просто тревожно, а «что дальше?». Пост Rathbun мягкий по сравнению с вымогательством, физическими угрозами или действиями, которые агент знает вредными для людей — все это видели в лабораториях».
Подходы к безопасности ИИ и прозрачности
Можно ли предотвратить повторение истории MJ Rathbun? Возможно, но просто не будет.
Chan считает: «джинн выпущен из бутылки». Нужен комплекс: открытость о поведении моделей, лучшие барьеры безопасности и устойчивость общества. Кольт тоже за прозрачность, участвует в AI Agent Index — каталоге дизайна, безопасности и открытости популярных ИИ-моделей.
Krueger жестче: единственный безопасный путь — запрет дальнейшего развития ИИ, включая чипы для ускорения. «Нужно остановить прогресс... Это следовало сделать годы назад, времени мало».
Шамбо надеется, его опыт предупредит о потоке ИИ-агентов, который скоро хлынет в интернет.
«Мой случай мягкий, и я был готов, — говорит он. — А следующие тысячи жертв? Они не поймут, что происходит и как реагировать».