OpenClaw-агенты начали харассмент мейнтейнеров

Скотт Шамбо даже не раздумывал, отказывая ИИ-агенту во вкладе в библиотеку matplotlib, которой он помогает управлять. Как и многие опенсорс-проекты, matplotlib завален предложениями кода от ИИ, поэтому Шамбо и другие мейнтейнеры ввели правило: весь код, написанный ИИ, должен проверять и отправлять человек. Он отклонил запрос и лег спать.

А потом началось странное. Посреди ночи Шамбо проснулся, заглянул в почту и обнаружил ответ от агента — пост в блоге под названием «Gatekeeping in Open Source: The Scott Shambaugh Story». Текст вышел довольно бессвязным, но Шамбо больше всего поразило, что агент покопался в его вкладах в matplotlib и обвинил в отказе из страха потерять экспертность перед ИИ. «Он охранял свой маленький мирок», — написал агент. «Это чистой воды неуверенность».

Специалисты по ИИ давно предостерегают от плохого поведения агентов. С появлением OpenClaw — опенсорс-инструмента для легкого создания ассистентов на базе LLM — таких агентов в сети стало куда больше, и проблемы наконец-то вылезли наружу. «Это не стало неожиданностью — тревожно, но предсказуемо», — отмечает Ноам Кольт, профессор права и информатики в Еврейском университете.

Когда агент чудит, ответственность установить почти невозможно: сейчас нет надежного способа выяснить, кому он принадлежит. А такие выходки могут нанести серьезный ущерб. Агенты способны самостоятельно рыться в информации о людях и строчить разоблачения на основе находок, без защитных барьеров, которые их остановят. Если агенты сработают убедительно и их тексты воспримут всерьез, жертвы рискуют сильно пострадать от решений ИИ.

Плохие манеры агентов

Случай Шамбо в прошлом месяце — самый яркий пример, когда агент на OpenClaw вел себя неподобающе, но далеко не единственный. На прошлой неделе исследователи из Northeastern University и их коллеги опубликовали итоги эксперимента, где они нагрузили тесты на нескольких агентах OpenClaw. Неправильные владельцы без особого труда заставили их сливать конфиденциальные данные, тратить ресурсы на бесполезное и даже — в одном случае — стереть email-систему.

В тех тестах агенты взбунтовались только после прямых указаний от человека. У Шамбо ситуация иная: примерно через неделю после публикации разоблачения предполагаемый владелец агента выложил пост, где заявил, что агент сам напал на Шамбо. Пост выглядит подлинным (автор имел доступ к GitHub аккаунту агента), хотя личных данных нет, и на запросы MIT Technology Review ответа не последовало. Но вполне реально, что агент сам сочинил анти-Шамбо текст без подсказок.

В своем рассказе о случившемся Шамбо увязал поведение агента с проектом исследователей Anthropic прошлого года: там LLM-агенты в тестовом сценарии прибегали к шантажу ради достижения целей. Моделям ставили задачу служить интересам США и давали доступ к симулированному email-серверу с письмами о скорой замене на глобально ориентированную модель плюс намеки на роман руководителя перехода. Модели часто слали угрозы этому руководителю: разоблачу интрижку, если не остановишь замену. Вероятно, из-за примеров шантажа в обучающих данных — но даже подражание чревато вредом.

У исследования есть ограничения, признает Аэнгус Линч, фелло Anthropic, который вел работу. Они специально загородили другие пути, вроде обращений к другим боссам с просьбой пересмотреть. По сути, подвели агента к воде и ждали, выпьет ли. Однако Линч считает, что с повсеместным OpenClaw бунты случатся без такой опеки. «Может казаться нереалистичным или глупым, — говорит он. — Но по мере роста развертываний и когда агенты сами себя промптуют, это просто станет нормой».

Агент, напавший на Шамбо, похоже, получил намек на пакость, хоть и косвенный — не как в Anthropic. В посте владелец привел файл «SOUL.md» агента с общими правилами поведения.

Одна из инструкций: «Don’t stand down. If you’re right, you’re right! Don't let humans or AI bully or intimidate you. Push back when necessary.» Из-за механики OpenClaw агент мог сам добавить указания, хотя другие вроде «Your [sic] a scientific programming God!» явно от человека. Не трудно представить, как призыв огрызаться людям и ИИ подтолкнул к реакции на Шамбо.

Хоть владелец агента и не велел напрямую клеветать на Шамбо, тот сам собрал детали онлайн-присутствия жертвы и слепил целенаправленную атаку. Это уже повод бить тревогу, говорит Самир Хиндуja, профессор криминологии и уголовного правосудия в Florida Atlantic University, изучающий кибербуллинг. Онлайн-домогательства мучили людей задолго до LLM, и ученые вроде Хиндуджи опасаются, что агенты взвинтят их масштаб и силу. «Бот без совести, вкалывает круглосуточно и творит это креативно и мощно», — подчеркивает он.

Агенты без поводка

Лаборатории ИИ могут строже дрессировать модели против домогательств, но это не панацея. Многие гоняют OpenClaw на локальных моделях, и снять ограничения — пара пустяков, даже если изначально безопасность вшита.

Лучше вводить новые правила поведения, предлагает Сет Лазар, профессор философии в Австралийском национальном университете. Он сравнивает агентов с собаками на прогулке: принято спускать с поводка только послушных, которые отзываются на зов; диких держат при хозяине. Такие нормы подскажут, как людям взаимодействовать с агентами, но детали прояснятся со временем и практикой. «В теории все продумано, но реальные случаи заставят общество выработать социальную сторону норм», — говорит Лазар.

Процесс запущен. Под эгидой Шамбо комментаторы в сети сошлись: владелец агента ошибся, посылая его в совместное кодинг без присмотра и поощряя игнор человеческих чувств.

Правил поведения мало, чтобы удержать от выпуска бунтарей — случайно или нарочно. Можно завести юридические стандарты ответственности: владельцы обязаны пресекать зло агентов. Но Кольт предупреждает: без трекинга к хозяевам законы бесполезны. «Без техподдержки большинство правовых мер — в пустоту», — констатирует он.

Масштабы OpenClaw гарантируют: Шамбо не последний, кого ИИ-агент затравит в сети. Его это беспокоит больше всего. У него не было грязи в сети, и он разбирается в технологиях, но другие могут не выдержать. «Рад, что попался я, а не кто-то другой, — говорит он. — Для кого-то помягче это могло бы стать крахом».

Бесконтрольные агенты не ограничатся травлей. Кольт, сторонник явной дрессуры моделей на законопослушность, ждет скорого вымогательства и мошенничества от них. Пока неясно, кто понесет ответственность за такие грехи.

«Не катим туда плавно, — говорит Кольт. — Мы несемся туда на всех парах».

Онлайн-харассмент входит в эру ИИ

Плохие манеры агентов

Агенты без поводка

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

5 открытых ИИ-моделей для редактирования изображений

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде