Anthropic выпускает третью версию Политики ответственного масштабирования (RSP) — добровольного подхода к снижению катастрофических рисков от систем ИИ.
Политика существует больше двух лет, и компания накопила опыт ее сильных и слабых сторон. Поэтому документ обновили: усилили рабочие элементы, исправили недостатки и добавили шаги для большей открытости и ответственности в принятии решений.
Исходная RSP и теория изменений
RSP решает задачу борьбы с рисками ИИ, которых нет на момент создания политики, но которые могут возникнуть внезапно из-за экспоненциального прогресса технологий. Когда в сентябре 2023 года Anthropic опубликовала первую RSP, крупные языковые модели служили в основном чат-интерфейсами. Сейчас они просматривают веб-страницы, пишут и запускают код, управляют компьютерами и выполняют автономные многошаговые действия. С появлением способностей растут и угрозы. Такая тенденция сохранится.
Основной принцип RSP — условные или если-то обязательства. Если модель превысит определенные пороги способностей (например, знания в биологии, полезные для создания опасного оружия), то внедрят более жесткие защиты (например, от злоупотреблений моделью или кражи весов).
Каждый пакет защит соответствует "Уровню безопасности ИИ" (ASL): ASL-2 подразумевает один набор мер, ASL-3 — более строгий для мощных моделей.
Ранние уровни (ASL-2 и ASL-3) описаны подробно, а поздние (ASL-4 и выше) оставили размытыми намеренно — их уточнят позже, когда станут ясны будущие возможности ИИ.
Вот приблизительное описание "теории изменений" — механизмов, через которые RSP должна повлиять на экосистему:
- Внутренний стимул. Внутри Anthropic политика превращает ключевые защиты в обязательные условия для запуска и обучения моделей. Это подчеркивает их значимость для растущей команды и ускоряет разработки.
- Гонка наверх. Объявление RSP должно побудить другие компании ИИ к похожим шагам. Это "гонка наверх" (противоположность "гонке вниз"), где участники мотивированы усиливать, а не ослаблять защиты моделей и общую безопасность. Со временем такие политики станут отраслевым стандартом или основой для законов, продвигающих безопасность и прозрачность.
- Формирование консенсуса по рискам. Пороги способностей — ключевые моменты для отрасли. Достигнув порога (например, когда ИИ поможет в полном цикле производства биологического оружия), Anthropic внедрит защиты и поделится данными, чтобы побудить другие компании и власти к действиям. Пороги подходят для перехода от унилатеральных мер (для своих моделей) к мультилатеральным (отрасль/государства).
- Взгляд в будущее. На поздних порогах защиты (например, стойкость к атакам от государственных акторов) станут слишком сложными для одной компании. К тому моменту мир увидит угрозы, и удастся скоординироваться с правительствами для мер, недоступных в одиночку.
Оценка теории изменений
Спустя два с половиной года часть ожиданий сбылась, часть — нет. Вот успехи RSP:
- RSP заставила Anthropic создать мощные защиты. Чтобы соответствовать стандарту развертывания ASL-3 (фокус на угрозах химического и биологического оружия от актеров с умеренными ресурсами), разработали продвинутые классификаторы входа и выхода для блокировки опасного контента.
- Внедрение стандарта ASL-3 оказалось выполнимым. В мае 2025 года активировали защиты ASL-3 для подходящих моделей и продолжают их улучшать.
- RSP подтолкнула другие компании к аналогичным стандартам: вскоре после анонса OpenAI и Google DeepMind ввели похожие фреймворки. Некоторые применили классификаторы против биологического оружия, как в ASL-3. Эти принципы повлияли на политику: правительства (Калифорния — SB 53, Нью-Йорк — RAISE Act, EU AI Act — Codes of Practice) требуют от разработчиков frontier-ИИ публиковать фреймворки оценки рисков. Anthropic отвечает этим через Frontier Compliance Framework. Именно такую прозрачность и ставила цель RSP.
Однако другие аспекты не оправдались:
- Использование порогов RSP для консенсуса по рискам не сработало полностью. Пороги оказались неоднозначными: модели часто приближаются к ним, но неясно, превышают ли. Оценка моделей недостаточно точна для четких выводов. Anthropic применяет осторожный подход и внедряет защиты, но неопределенность ослабляет аргументы для отраслевых действий.
- Биологические риски — пример "зоны неопределенности". Модели демонстрируют биологические знания на большинстве быстрых тестов, так что низкий риск нельзя утверждать уверенно. Но тесты не доказывают высокий риск. Дополнительные данные, как лабораторные эксперименты, тоже неоднозначны — к завершению появляются мощные модели.
- Несмотря на быстрый прогресс ИИ, действия правительств по безопасности медленны. Политика сместилась к конкуренции и росту, безопасность не получила импульса на федеральном уровне. Правительственное участие необходимо и возможно, но требует усилий по доказательствам, безопасности, экономике и доверию — это долгосрочный процесс, не автоматический при росте способностей.
Anthropic внедрила ASL-3 самостоятельно без больших затрат. Но для высших ASL это может измениться. Поздние уровни требуют коллективных усилий. Отчет RAND о защите весов моделей отмечает: стандарт "SL5" против топ-киберугроз "сейчас невозможен" и требует помощи нацбезопасности.
Комбинация неопределенности рисков, антирегуляторного климата и сложных унилатеральных мер создает проблему для текущей RSP. Можно было упростить ASL-4/5, но это нарушило бы суть. Вместо этого Anthropic честно признает вызовы и меняет RSP до высших уровней. Новая версия фокусируется на реалистичных обязательствах компании, сохраняя карту рисков для отрасли.
Обновление Политики ответственного масштабирования
Новая RSP содержит три главных элемента.
1. Разделение планов компании и рекомендаций для отрасли
RSP теперь описывает два набора мер: меры, которые Anthropic реализует независимо, и амбициозную карту способностей-мер, достаточную для управления рисками при отраслевом внедрении.
Полная Политика ответственного масштабирования.
2. Дорожная карта безопасности frontier-моделей
Новая RSP требует создать и опубликовать Frontier Safety Roadmap — план мер по безопасности, согласованности, защитам и политике. Цели амбициозны, но достижимы — как успешный стимул прошлых RSP.
Это публичные цели без жестких обязательств, с открытой оценкой прогресса. Подход заимствован из продвигаемой прозрачности для законов о frontier-ИИ (с большим деталем) и успехов RSP.
Примеры целей из текущей Roadmap:
- Запустить "лунарные" R&D-проекты для нестандартных методов сверхзащиты информации;
- Разработать автоматизированный red-teaming, превосходящий вклад сотен участников bug bounty;
- Внедрить системные меры для соблюдения Claude конституции;
- Создать централизованные записи всех ключевых активностей ИИ-разработки и анализировать их ИИ на угрозы от инсайдеров (людей/ИИ) и безопасности;
- Опубликовать дорожную карту политики с предложениями "регуляторной лестницы" — мер, растущих с рисками, для ориентира властям.
Дорожная карта безопасности frontier-моделей с деталями.
3. Отчеты о рисках и внешний обзор
Отчеты о рисках развивают успех прототипа — Safeguards Report от мая 2025 года, полезного для понимания и коммуникации.
Отчеты дают детальный профиль безопасности моделей: как способности, модели угроз и mitigации сочетаются, с оценкой общего риска. Публикуют онлайн (с редакциями1) каждые 3-6 месяцев.
RSP требует внешнего ревью отчетов в ключевых случаях. Назначают экспертов по ИИ-безопасности — честных, без конфликтов. Они получат почти полный доступ и публично проверят анализ и решения. Пока модели не требуют этого, но пилоты идут.
Отчеты покажут разрывы между мерами Anthropic и отраслевыми рекомендациями, повышая осведомленность и помогая политике.
Заключение
RSP всегда задумывалась как живой документ, эволюционирующий с ростом моделей ИИ. Третья версия усиливает сильные стороны, повышает прозрачность планов и рисков, отделяя рекомендации для отрасли от достижимого для компании.
В духе прагматизма Anthropic продолжит дорабатывать RSP, методы оценки и mitigации рисков по мере развития технологий.