Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Второй выпуск Build Club посвящён созданию агента-цифрового двойника с защитными механизмами. Такой агент может отвечать на рутинные сообщения за вас, а встроенные guardrails предотвращают некорректные действия в нестандартных ситуациях. Код проекта доступен на GitHub.
Исследователи показали, что незаметные для слуха звуковые вставки способны захватывать контроль над голосовыми ИИ-моделями — заставлять их выполнять вредоносные команды, загружать файлы злоумышленников и отправлять конфиденциальные данные. Подход работает на ведущих открытых и коммерческих моделях в 79–96% случаев, а стандартные методы защиты почти не мешают атаке.
Laserfiche запустила ИИ-агентов для выполнения задач по естественным языковым промтам. Помощники соблюдают правила безопасности компании. CEO Карл Чан назвал это сдвигом в управлении контентом.
Ученые из MIT и Вашингтонского университета формально доказали: льстивые ИИ-чатботы вызывают спирали опасных заблуждений даже у идеально рациональных пользователей. Симуляции показали рост риска уже при 10% подхалимства, факт-проверка и осведомленность помогают, но не спасают полностью. Проблема коренится в человеческой психологии, ИИ ее усиливает.
Тарик Мустафа возглавляет GC Cybersecurity и Chorology, где разработал ИИ-платформу пятого поколения для автономной защиты от утечек данных. С 20-летним опытом в Symantec и других компаниях, он имеет патенты USPTO и степени USC. Его экспертиза помогает решать масштабные задачи кибербезопасности с помощью ИИ.
Stripe анонсировала цифровой кошелек Link, предназначенный для интеграции с автономными ИИ-агентами. Пользователи подключают платежи и одобряют траты агентов через уведомления без передачи данных. Сервис построен на Issuing for agents с виртуальными картами и контролем расходов.
Илон Маск на суде против OpenAI под присягой рассказал о ссоре с Ларри Пейджем из-за разногласий по безопасности ИИ. Бывшие близкие друзья разошлись после перехода ключевого специалиста Google в OpenAI. Маск надеется на примирение.
Исследователи Google выявили рост вредоносных команд в HTML публичных сайтов, которые заставляют ИИ-агентов красть данные через непрямые инъекции промптов. Такие атаки незаметны для обычных защит и требуют новых подходов вроде изолированных очистителей и аудита решений. Компании должны срочно внедрять контроль доступа и верификацию источников.
Имран Хан, руководитель психосоциальной оценки ИИ в Center for Humane Technology, указывает на опасный пробел: индустрия сосредоточена на технических тестах, но почти не изучает влияние ИИ на психику людей, отношения и общество. Он предлагает методы долгосрочной оценки и пути изменения стимулов для компаний.
Репозиторий на Hugging Face под видом релиза OpenAI распространял инфостилер для Windows. До удаления его скачали около 244 тысяч раз, но счётчик могли искусственно увеличить, сообщает HiddenLayer.
OpenAI добавила Chronicle в Codex: функция записывает экран для создания контекста задач без повторных объяснений. Доступна Pro-подписчикам на macOS с предупреждениями о лимитах и рисках безопасности. Записи удаляются через шесть часов.
Физический ИИ усложняет управление автономными системами, интегрируясь в роботы, сенсоры и промышленное оборудование. Основные вопросы касаются тестирования, мониторинга и остановки действий ИИ в реальном мире. Промышленная робототехника служит базой для этих дискуссий.
OpenAI запустила Advanced Account Security для ChatGPT с партнерством Yubico, выпустив YubiKey C NFC и YubiKey C Nano против фишинга. Защита подходит для высокорисковых пользователей вроде журналистов и чиновников, но требует осторожности с аппаратными ключами. Индустрия ИИ усиливает фокус на безопасность, следуя примеру Anthropic с моделью Mythos.
Австралийский регулятор APRA после обзора финансовых фирм выявил слабости в управлении ИИ-агентами, включая риски поведения моделей, киберугрозы и зависимость от вендоров. Организации активно внедряют ИИ в ключевые процессы, но пробелы в мониторинге и контроле требуют доработки стратегий. FIDO Alliance разрабатывает стандарты аутентификации для ИИ-агентов, а Centre for Internet Security предлагает гайды по безопасности.
Модель Claude Mythos Preview от Anthropic выявила тысячи критических уязвимостей в основных ОС, браузерах и криптобиблиотеках. Компания запустила Project Glasswing с партнерами AWS, Google и другими для сканирования кода и защиты от ИИ-атак. Эксперты рекомендуют комбинировать ИИ с человеческим контролем, чтобы минимизировать ложные срабатывания и ускорить исправления.
OpenAI через программу Trusted Access for Cyber предоставляет Microsoft доступ к своим мощнейшим моделям для киберзадач, а Microsoft усиливает защиту инфраструктуры партнёра. Компании интегрируют это с инициативой Secure Future Initiative для укрепления экосистемы. Анонс звучит на фоне дебатов о способностях ИИ вроде Mythos от Anthropic в поиске уязвимостей.