Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Статья описывает пять ключевых практик защиты ИИ-систем: от контроля доступа и шифрования до мониторинга и планов реагирования. OWASP выделяет инъекцию промптов как главную уязвимость LLM, а NIST настаивает на полной видимости. Рекомендуются провайдеры Darktrace, Vectra AI и CrowdStrike для реализации.
Anthropic добавила в Claude Code режим auto mode, где ИИ самостоятельно оценивает безопасность действий и запускает безопасные без подтверждения. Функция защищает от рисков и инъекции промпта, работает с моделями Sonnet 4.6 и Opus 4.6 в песочницах. Это развитие после Claude Code Review и Dispatch for Cowork.
OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.
Специалисты Microsoft обнаружили метод «отравления рекомендаций ИИ»: кнопки «Суммаризировать с ИИ» на сайтах внедряют скрытые промпты в память ассистентов вроде Copilot и ChatGPT. За 60 дней нашли 50+ случаев от 31 компании из 14 отраслей, использующих готовые инструменты вроде CiteMET. Это создает риски для бизнеса и личной безопасности, но есть способы защиты.
Google DeepMind описала шесть типов ловушек, уязвляющих автономных ИИ-агентов на этапах восприятия, мышления, памяти, действий и взаимодействия. Ловушки комбинируются, требуя комплексных мер защиты от фильтров до новых стандартов. Кибербезопасность остается барьером для широкого внедрения агентов.
ИИ-агент от Codewall за два часа взломал платформу Lilli McKinsey через SQL-инъекцию в JSON-полях, получив доступ к 46,5 млн чат-сообщений, промтам и RAG-данным. Уязвимость позволяла незаметно менять поведение ИИ без следов. McKinsey оперативно устранила дыру, но случай подчеркивает новые угрозы для промтов как ключевых активов.
OpenAI планирует поглотить Promptfoo, чтобы интегрировать ее инструменты безопасности в платформу Frontier для корпоративных ИИ. Это позволит автоматически тестировать на промт-инъекции, джейлбрейки и утечки данных, плюс улучшить аудит и compliance. Open-source проект Promptfoo сохранится, сделка на $23 млн при valuation $86 млн не закрыта.
Показаны все статьи (7)