Anthropic делится фреймворком для SB 53

С 1 января вступит в силу Закон Калифорнии о прозрачности в области frontier AI (SB 53). Этот закон вводит первые в США требования к безопасности и открытости frontier AI моделей в отношении катастрофических рисков.

Хотя Anthropic давно выступает за федеральный подход, компания поддержала SB 53. Разработчики мощных ИИ вроде Anthropic должны делиться информацией о том, как они оценивают и контролируют такие риски. Закон сочетает обязательные меры по безопасности, отчетность о происшествиях и защиту информаторов, при этом оставляя компаниям свободу в реализации и освобождая мелкие фирмы от лишних обязательств.

Одно из главных положений закона — публикация фреймворка, описывающего оценку и управление катастрофическими рисками. Anthropic уже выложила свой Frontier Compliance Framework (FCF) для всех, здесь. Далее разберем его содержание и подумаем, что ждет frontier AI в плане открытости.

FCF объясняет, как Anthropic анализирует и снижает риски кибератак, химических, биологических, радиологических и ядерных угроз, а также угроз от саботажа ИИ и потери контроля над моделями. Фреймворк детализирует многоуровневую систему оценки способностей моделей по этим категориям рисков, подходы к их снижению, защиту весов моделей и действия при инцидентах безопасности.

Большинство элементов FCF — это развитие практик, которые Anthropic применяет годами. С 2023 года Политика ответственного масштабирования (RSP) определяет стратегию работы с экстремальными рисками продвинутых ИИ-систем и влияет на решения по разработке и запуску. Компания также публикует подробные system cards при релизе новых моделей с описанием возможностей, тестов безопасности и анализа рисков. Другие лаборатории добровольно идут похожим путем. Теперь, с вступлением закона в силу 1 января, такие меры прозрачности станут обязательными для создателей самых мощных ИИ в Калифорнии.

Дальше FCF будет основой для соответствия SB 53 и другим регуляциям. RSP останется добровольной политикой безопасности, отражающей идеальные практики в меняющемся мире ИИ, даже если они выходят за рамки или отличаются от текущих правил.

Зачем нужен федеральный стандарт

Внедрение SB 53 — ключевой шаг. Закон фиксирует прозрачные практики, которые ответственные лаборатории уже применяют сами, чтобы их нельзя было тихо свернуть, когда модели станут мощнее или вырастет конкуренция. Теперь требуется федеральный фреймворк прозрачности ИИ для единых правил по всей стране.

Ранее в этом году Anthropic предложила фреймворк для федерального закона. Он фокусируется на открытости практик безопасности без жесткой фиксации техник, которые могут устареть. Основные принципы:

Обязательный публичный фреймворк безопасной разработки: Крупные разработчики публикуют описание оценки и снижения серьезных рисков, включая химические, биологические, радиологические и ядерные угрозы, а также риски от неуправляемой автономии моделей.
Публикация system cards при запуске: Документы с итогами тестов, процедур оценки, результатов и мер снижения рисков выходят в свет при деплое моделей, с обновлениями при значительных изменениях.
Защита информаторов: Ложь о соответствии фреймворку или наказание сотрудников за сигналы о нарушениях должны считаться прямым нарушением закона.
Гибкие стандарты прозрачности: Эффективный фреймворк устанавливает минимум требований для повышения безопасности и общественной защиты, учитывая быстрые изменения в разработке ИИ. Стандарты — легкие и адаптивные, подстраивающиеся под новые лучшие практики.
Ограничение на крупнейших разработчиков моделей: Чтобы не нагружать стартапы и мелких создателей моделей с низким риском катастроф, правила касаются только ведущих frontier-разработчиков самых мощных систем.

По мере роста мощи ИИ-систем обществу нужно видеть, как их создают и какие барьеры ставят. Anthropic готова сотрудничать с Конгрессом и администрацией, чтобы создать национальный фреймворк прозрачности, сочетающий безопасность с лидерством США в ИИ.

Фреймворк Anthropic для SB 53 Калифорнии

Зачем нужен федеральный стандарт

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде