Безопасный персональный ИИ-ассистент: миф или реальность

ИИ-агенты несут серьезные риски. Даже в рамках чата большие языковые модели совершают ошибки и ведут себя непредсказуемо. А если дать им инструменты для взаимодействия с внешним миром, вроде браузеров или почты, последствия таких промахов выходят на новый уровень.

Появление первого прорывного персонального ИИ-ассистента на базе LLM произошло не у крупных лабораторий, заботящихся о репутации и ответственности, а у независимого разработчика Петера Штайнбергера. В ноябре 2025 года он выложил свой инструмент, ныне известный как OpenClaw, на GitHub, а в конце января проект разлетелся по сети.

OpenClaw использует существующие LLM, чтобы пользователи могли собрать персональных помощников. Для кого-то это значит передачу огромных объемов личных данных — от архивов почты до содержимого жесткого диска. Специалисты по безопасности в ужасе. Угрозы от OpenClaw столь обширны, что на их изучение уйдет неделя, чтобы ознакомиться со всеми постами в блогах о безопасности , появившимися за последние недели. Китайское правительство даже выпустило публичное предупреждение об уязвимостях OpenClaw.

На критику Штайнбергер ответил в X, посоветовав не-технарям не трогать софт. (На запрос для этой статьи он не отреагировал.) Но спрос на возможности OpenClaw огромен, и он не ограничивается теми, кто умеет проверять код на дыры. Любая компания, желающая войти в рынок персональных ассистентов, должна обеспечить защиту данных пользователей. Для этого стоит заимствовать идеи из передовых исследований по безопасности агентов.

Управление рисками

OpenClaw — это как экзоскелет для LLM. Пользователь выбирает модель в качестве пилота, и она обретает расширенную память плюс умение ставить себе повторяющиеся задачи. В отличие от агентов от больших фирм, OpenClaw работает круглосуточно, общаясь через WhatsApp или другие мессенджеры. Такой помощник разбудит утром персональным списком дел, спланирует отпуск на работе и даже создаст новые приложения в свободное время.

Но такая мощь чревата проблемами. Чтобы ассистент вел почту, ему нужен доступ к ящику с конфиденциальной информацией. Для покупок — данные карты. Для задач на ПК, вроде написания кода, — доступ к локальным файлам.

Ошибки возможны по-разному. ИИ может напортачить, как агент Google Antigravity, который по ошибке стер весь диск пользователя. Или хакеры взломают агента традиционными методами, чтобы вытащить данные или запустить вредоносный код. После виральности OpenClaw исследователи нашли кучу уязвимостей , опасных для новичков.

Эти угрозы можно минимизировать: некоторые запускают OpenClaw на отдельных машинах или в облаке, чтобы спасти диски, а дыры закроют проверенными методами безопасности.

Но эксперты, с которыми говорили, акцентируют на коварной угрозе — prompt injection. Это захват LLM: злоумышленник размещает вредный текст или картинки на сайте или в почте, и модель подчиняется.

Если у LLM есть доступ к личным данным, ущерб огромен. «OpenClaw — как отдать кошелек незнакомцу на улице», — говорит Николя Папернот, профессор электротехники и информатики в Университете Торонто. Способность крупных компаний предлагать ассистентов зависит от защиты от таких атак.

Prompt injection пока не привел к катастрофам, по крайней мере публично. Но с сотнями тысяч OpenClaw-агентов в сети это становится лакомым куском для киберпреступников. «Такие инструменты побуждают атаковать больше людей», — отмечает Папернот.

Создание барьеров

Термин «prompt injection» придумал блогер по LLM Саймон Уиллисон в 2022 году, до ChatGPT. Уже тогда ясно было: LLM создадут новый класс уязвимостей. Модели не отличают команды пользователей от данных вроде почты или поисковых сниппетов — все текст. Злоумышленник вставит фразы в email, и LLM выполнит их как приказ.

Проблема сложная, без универсального решения. «Сейчас нет пули-убийцы», — признает Доун Сонг, профессор информатики в UC Berkeley. Но академики разрабатывают подходы, чтобы сделать ассистентов безопасными.

OpenClaw можно юзать без риска prompt injection, отключив интернет. Но без почты, календаря и поиска смысл теряется. Нужно блокировать захваты, не мешая работе.

Один способ — обучить модель игнорировать инъекции. На этапе пост-тренинга модель «награждают» за правильные ответы и «наказывают» за ошибки, как животное. Так учат распознавать и отбрасывать примеры атак.

Но баланс важен: слишком строгие правила заблокируют и нормальные запросы. Плюс случайность в LLM значит, что даже обученная модель иногда пропустит.

Другой метод — ловить атаки до LLM с помощью детектора-модели. Но в недавнем исследовании лучшие детекторы провалились на некоторых типах инъекций.

Третий подход сложнее: не фильтровать входы, а задавать правила для выходов и действий. Простой пример — разрешить email только на одобренные адреса, чтобы не слить карту. Но это заблокирует полезное, вроде поиска контактов.

«Главное — точно описать политики», — говорит Нил Гонг, профессор электротехники в Университете Дьюка. «Это компромисс между полезностью и защитой».

В мире агентов все спорят: когда они станут достаточно безопасными? Сонг из стартапа Virtue AI, платформы для агентов, считает сейчас возможно. Гонг сомневается: «Пока нет».

Полностью защитить от инъекций нельзя, но риски снижают. В OpenClaw возможны улучшения. На прошлой неделе на первом ClawCon в Сан-Франциско Штайнбергер объявил о найме специалиста по безопасности.

OpenClaw уязвим, но фанаты не отстают. Джордж Пикетт, волонтер-ментейнер репозитория OpenClaw на GitHub и поклонник, принял меры: запускает в облаке, чтобы не стереть диск, и защитил от чужих подключений.

От prompt injection он не обороняется специально. Знает о угрозе, но инцидентов с OpenClaw не слышал. «Может, глупо, но вряд ли я стану первой жертвой», — говорит он.

Возможен ли безопасный ИИ-ассистент?

Управление рисками

Создание барьеров

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде