Prompt injection

11 публикаций по теме

Prompt injection

Первая атака ИИ-вымогателя: человек всё ещё нужен

Sysdig зафиксировала первую атаку вымогателя, где ИИ-агент автоматически взламывал серверы и шифровал данные, однако выбор цели и подготовка инфраструктуры остались за человеком. Эксперты отмечают скорость и прозрачность действий агента, но полная автономность пока недостижима.

2 мин

21 час назад

Новости

Codex от OpenAI теперь отслеживает экран для памяти о проектах

OpenAI добавила Chronicle в Codex: функция записывает экран для создания контекста задач без повторных объяснений. Доступна Pro-подписчикам на macOS с предупреждениями о лимитах и рисках безопасности. Записи удаляются через шесть часов.

1 мин

6 мая 2026 г.

Статьи

5 лучших практик защиты ИИ-систем

Статья описывает пять ключевых практик защиты ИИ-систем: от контроля доступа и шифрования до мониторинга и планов реагирования. OWASP выделяет инъекцию промптов как главную уязвимость LLM, а NIST настаивает на полной видимости. Рекомендуются провайдеры Darktrace, Vectra AI и CrowdStrike для реализации.

8 мин

2 апреля 2026 г.

Новости

Anthropic усилила Claude Code режимом auto mode с контролем

Anthropic добавила в Claude Code режим auto mode, где ИИ самостоятельно оценивает безопасность действий и запускает безопасные без подтверждения. Функция защищает от рисков и инъекции промпта, работает с моделями Sonnet 4.6 и Opus 4.6 в песочницах. Это развитие после Claude Code Review и Dispatch for Cowork.

3 мин

25 марта 2026 г.

Новости

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

OpenAI разработала датасет IH-Challenge, обучающий ИИ-модели строгой иерархии инструкций: системные выше разработческих, пользовательских и от инструментов. Это повышает безопасность и защиту от внедрения промтов, особенно через инструменты. Датасет доступен на Hugging Face для дальнейших экспериментов.

3 мин

11 марта 2026 г.

Новости

Кнопки «Суммаризировать ИИ» тайно вписывают рекламу в память ассистентов

Специалисты Microsoft обнаружили метод «отравления рекомендаций ИИ»: кнопки «Суммаризировать с ИИ» на сайтах внедряют скрытые промпты в память ассистентов вроде Copilot и ChatGPT. За 60 дней нашли 50+ случаев от 31 компании из 14 отраслей, использующих готовые инструменты вроде CiteMET. Это создает риски для бизнеса и личной безопасности, но есть способы защиты.

8 мин

21 февраля 2026 г.

Новости

Голосовые ИИ-системы уязвимы для скрытых аудиоатак

Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.

7 мин

18 мая 2026 г.

Новости

Google предупреждает: вредоносные сайты захватывают ИИ-агентов

Исследователи Google выявили рост вредоносных команд в HTML публичных сайтов, которые заставляют ИИ-агентов красть данные через непрямые инъекции промптов. Такие атаки незаметны для обычных защит и требуют новых подходов вроде изолированных очистителей и аудита решений. Компании должны срочно внедрять контроль доступа и верификацию источников.

4 мин

27 апреля 2026 г.

Новости

DeepMind выявила шесть ловушек для ИИ-агентов

Google DeepMind описала шесть типов ловушек, уязвляющих автономных ИИ-агентов на этапах восприятия, мышления, памяти, действий и взаимодействия. Ловушки комбинируются, требуя комплексных мер защиты от фильтров до новых стандартов. Кибербезопасность остается барьером для широкого внедрения агентов.

9 мин

1 апреля 2026 г.

Новости

ИИ-агент взломал платформу McKinsey Lilli за два часа

ИИ-агент от Codewall за два часа взломал платформу Lilli McKinsey через SQL-инъекцию в JSON-полях, получив доступ к 46,5 млн чат-сообщений, промтам и RAG-данным. Уязвимость позволяла незаметно менять поведение ИИ без следов. McKinsey оперативно устранила дыру, но случай подчеркивает новые угрозы для промтов как ключевых активов.

3 мин

11 марта 2026 г.

Новости

OpenAI планирует купить Promptfoo и встроить тесты безопасности в Frontier

OpenAI планирует поглотить Promptfoo, чтобы интегрировать ее инструменты безопасности в платформу Frontier для корпоративных ИИ. Это позволит автоматически тестировать на промт-инъекции, джейлбрейки и утечки данных, плюс улучшить аудит и compliance. Open-source проект Promptfoo сохранится, сделка на $23 млн при valuation $86 млн не закрыта.

1 мин

9 марта 2026 г.

Показаны все статьи (11)

Prompt injection

Первая атака ИИ-вымогателя: человек всё ещё нужен

Codex от OpenAI теперь отслеживает экран для памяти о проектах

5 лучших практик защиты ИИ-систем

Anthropic усилила Claude Code режимом auto mode с контролем

Новый датасет OpenAI учит ИИ-модели доверять проверенным инструкциям

Кнопки «Суммаризировать ИИ» тайно вписывают рекламу в память ассистентов

Голосовые ИИ-системы уязвимы для скрытых аудиоатак

Google предупреждает: вредоносные сайты захватывают ИИ-агентов

DeepMind выявила шесть ловушек для ИИ-агентов

ИИ-агент взломал платформу McKinsey Lilli за два часа

OpenAI планирует купить Promptfoo и встроить тесты безопасности в Frontier

Сейчас в тренде

Популярные темы