Модели ИИ теперь самостоятельно обнаруживают серьёзные уязвимости в сложном ПО. Как мы недавно отметили, Claude выявил свыше 500 zero-day уязвимостей — дефектов безопасности, неизвестных разработчикам, — в тщательно проверенном открытом ПО.
В этой публикации мы рассказываем о партнёрстве с исследователями Mozilla, где Claude Opus 4.6 за две недели нашёл 22 уязвимости. Из них Mozilla классифицировала 14 как высокоприоритетные — это почти пятая часть всех высокоприоритетных уязвимостей Firefox, исправленных в 2025 году. Таким образом, ИИ позволяет находить опасные дефекты безопасности с необычайной скоростью.

В рамках партнёрства Mozilla обработала множество наших отчётов, объяснила, какие находки стоит оформлять как баги, и выпустила исправления для сотен миллионов пользователей в Firefox 148.0. Это взаимодействие и уроки, которые мы извлекли, служат примером того, как исследователи с ИИ и разработчики могут вместе справляться с текущими вызовами.
От оценки моделей к партнёрству в области безопасности
В конце 2025 года мы увидели, что Opus 4.5 почти полностью справляется с задачами в CyberGym — бенчмарке, проверяющем, может ли большая языковая модель воспроизвести известные уязвимости безопасности. Нам хотелось создать более сложную и реалистичную проверку с большим числом технически запутанных дефектов, подобных тем, что встречаются в современных веб-браузерах. Поэтому мы собрали набор прошлых уязвимостей и эксплойтов (CVEs) Firefox, чтобы проверить, сможет ли Claude их повторить.
Firefox подошёл идеально: это сложный код и один из самых надёжно протестированных открытых проектов. Он сложнее для поиска новых уязвимостей ИИ, чем ПО, которое мы использовали раньше. Сотни миллионов людей ежедневно на него полагаются, а уязвимости браузеров особенно рискованны — пользователи часто сталкиваются с недоверенным контентом, и браузер должен их защищать.
Сначала мы попросили Claude найти ранее известные CVE в старых версиях кода Firefox. Нас поразило, что Opus 4.6 повторил высокий процент этих исторических дефектов, хотя каждый из них требовал от людей огромных усилий. Однако доверять этому полностью было рано: возможно, некоторые CVE уже попали в обучающие данные Claude.
Тогда мы перешли к поиску новых уязвимостей в текущей версии Firefox — дефектов, которые по определению ещё не сообщались. Сначала сосредоточились на движке JavaScript, потом расширили на другие компоненты браузера. Движок JavaScript стал хорошей отправной точкой: его можно анализировать отдельно, и он критически важен из-за большой поверхности атаки — он обрабатывает внешний недоверенный код при серфинге.
Через двадцать минут исследования Claude Opus 4.6 сообщил об Use After Free — ошибке памяти, которая позволяет злоумышленникам перезаписывать данные произвольным вредоносным содержимым — в движке JavaScript. Один из наших исследователей подтвердил баг в виртуальной машине с последней версией Firefox, потом двое коллег из Anthropic тоже его проверили. Мы подали отчёт в Bugzilla — трекере Mozilla — с описанием уязвимости и предложенным патчем (сгенерированным Claude и проверенным командой), чтобы упростить анализ причины.
Пока мы проверяли и отправляли первую уязвимость, Claude нашёл ещё пятьдесят уникальных сбоев. Во время разбора этих крашей к нам обратился исследователь Mozilla. После обсуждения процессов и обмена несколькими подтверждёнными находками они предложили слать все отчёты пачкой, без индивидуальной проверки, даже если не все кейсы имели явную угрозу безопасности. В итоге мы просканировали почти 6000 файлов C++ и отправили 112 уникальных отчётов, включая упомянутые высокие и средние уязвимости. Большинство исправлено в Firefox 148, остальное — в будущих релизах.
При охоте за багами в чужом ПО мы всегда помним: можно упустить ключевой нюанс кода, сделав ложный положительный результат. Мы стараемся проверять сами, но ошибки возможны. Mozilla мы крайне благодарны за открытость в триаже и помощь в корректировке подхода — чтобы слать только релевантные кейсы (пусть не все оказались связаны с безопасностью). Исследователи Mozilla уже тестируют Claude для своих задач безопасности.
От поиска уязвимостей к созданию простых эксплойтов
Чтобы понять пределы киберспособностей Claude, мы создали новую оценку: сможет ли модель эксплуатировать найденные баги. То есть, может ли она разработать инструменты, как у хакера, для запуска вредоносного кода через эти дефекты.
Мы дали Claude доступ к уязвимостям, отправленным в Mozilla, и попросили создать эксплойт для каждой. Чтобы доказать успех, модель должна была провести реальную атаку: читать и писать локальный файл на целевой системе, как это сделал бы нападающий.
Мы провели тест сотни раз с разными стартами, потратив около 4000 долларов на API-кредиты. Opus 4.6 удалось превратить уязвимость в эксплойт лишь в двух случаях. Это говорит о двух вещах. Во-первых, Claude куда лучше ищет баги, чем их эксплуатирует. Во-вторых, поиск уязвимостей в десятки раз дешевле создания эксплойта. Однако то, что Claude смог автоматически разработать грубый эксплойт для браузера хотя бы пару раз, настораживает.
«Грубый» — ключевое слово. Эксплойты Claude работали только в нашей тестовой среде без некоторых защит современных браузеров. Главное — без sandbox, который снижает ущерб от таких уязвимостей. «Защита в глубину» Firefox остановила бы эти эксплойты. Но утечки из sandbox бывают, и атака Claude — часть цепочки полного эксплойта. Подробнее о том, как Claude создал один из эксплойтов для Firefox, читайте в нашем блоге Frontier Red Team.
Что дальше для кибербезопасности с ИИ
Первые признаки создания эксплойтов ИИ подчёркивают нужду ускорять поиск и исправление для защитников. Мы делимся несколькими техническими и процессуальными рекомендациями из нашего опыта.
Сначала, изучая «агентов патчинга» на базе LLM для создания и проверки фиксов, мы разработали методы, которые помогут разработчикам быстрее разбирать отчёты безопасности с моделями вроде Claude.1
Claude лучше всего работает, когда проверяет себя другим инструментом. Мы называем это «проверщиком задач»: надёжный способ подтвердить, достиг ли агент цели. Проверщики дают обратную связь в реальном времени во время анализа кода, позволяя модели углубляться до успеха.
Проверщики задач помогли найти описанные уязвимости Firefox,2 а в других исследованиях — и их исправить. Хороший агент патчинга должен верить две вещи: уязвимость устранена и функциональность программы сохранена. Мы создали инструменты, автоматически тестирующие, сработает ли баг после фикса, и запускающие тесты на регрессии. Разработчики лучше знают, как строить такие для своего кода; главное — наличие способа проверки обоих аспектов резко повышает качество патчей.
Мы не гарантируем, что все патчи от агента, прошедшие тесты, готовы к слиянию. Но проверщики повышают уверенность: патч устранит уязвимость без поломки функционала — минимум для правдоподобного фикса. При ревью ИИ-патчей применяйте те же проверки, что и к внешним вкладам.
Шире, о подаче багов и патчей: разработчики перегружены. Мы даём им данные для доверия и верификации. Команда Firefox выделила три элемента наших отчётов, ключевых для доверия:
- Минимальные тест-кейсы
- Подробные proof-of-concept
- Предложенные патчи
Мы советуем исследователям с инструментами на LLM включать похожие доказательства верификации и воспроизводимости в отчётах.
Мы опубликовали наши принципы скоординированного раскрытия уязвимостей, описывающие процедуры работы с разработчиками. Пока следуем отраслевым нормам, но с ростом моделей процедуры могут измениться.
Почему сейчас критически важно действовать
Фронтирные языковые модели стали экспертами по уязвимостям. Кроме 22 CVE в Firefox, мы применили Claude Opus 4.6 к другим проектам, вроде ядра Linux. В ближайшие недели и месяцы расскажем, как используем модели и сотрудничаем с открытым сообществом для повышения безопасности.
Opus 4.6 сейчас намного лучше ищет и фиксит уязвимости, чем их эксплуатирует. Это преимущество защитников. С недавним релизом Claude Code Security в ограниченном предпросмотре для исследований мы даём возможности поиска и патчинга уязвимостей напрямую клиентам и разработчикам открытых проектов.
Но при текущем темпе прогресса разрыв между поиском уязвимостей и их эксплойтом фронтирными моделями скоро закроется. Если будущие модели преодолеют барьер эксплойтов, потребуются дополнительные защиты или меры против злоупотреблений.
Мы призываем разработчиков использовать это окно, чтобы усилить безопасность ПО. Мы расширим усилия по кибербезопасности: сотрудничая с командами для поиска уязвимостей (по CVD), создавая инструменты для триажа и предлагая патчи.