Мы расширяем области рисков и совершенствуем процесс оценки угроз.
Прорывы в области искусственного интеллекта трансформируют нашу повседневную жизнь — от прогресса в математике, биологии и астрономии до реализации потенциала персонализированного образования. По мере создания всё более мощных ИИ-моделей мы стремимся к ответственному развитию технологий и использованию доказательного подхода для упреждающего реагирования на возникающие риски.
Сегодня мы публикуем третью версию нашего Пограничного механизма безопасности (ПМБ) — самого комплексного подхода на сегодня для выявления и смягчения серьёзных рисков, связанных с передовыми ИИ-моделями.
Это обновление основано на наших текущих collaborations с экспертами из индустрии, академических кругов и государственных органов. Мы также учли уроки, извлечённые при реализации предыдущих версий, и развивающиеся лучшие практики в области безопасности передового ИИ.
Ключевые обновления механизма
Решение рисков вредоносного манипулирования
С этим обновлением мы вводим Уровень критических возможностей (УКВ)*, ориентированный на вредоносное манипулирование — конкретно, ИИ-модели с мощными манипулятивными способностями, которые могут быть misuse для систематического и существенного изменения убеждений и поведения в определённых высокоставочных контекстах в ходе взаимодействий с моделью, что может разумно привести к дополнительному ожидаемому вреду в серьёзных масштабах.
Это дополнение основывается на исследованиях, которые мы провели для идентификации и оценки механизмов, управляющих манипуляцией со стороны генеративного ИИ, и операционализирует их. В дальнейшем мы продолжим инвестировать в эту область, чтобы лучше понимать и измерять риски, связанные с вредоносным манипулированием.
Адаптация подхода к рискам misalignment
Мы также расширили наш механизм, чтобы охватить потенциальные будущие сценарии, в которых misaligned ИИ-модели могут interfere со способностью операторов направлять, модифицировать или shut down их операции.
В то время как наша предыдущая версия механизма включала exploratory подход, сфокусированный на УКВ инструментального мышления (т. е., уровни предупреждения, специфичные для случаев, когда ИИ-модель начинает мыслить обманчиво), с этим обновлением мы теперь предоставляем дополнительные протоколы для наших УКВ машинного обучения и разработки, ориентированных на модели, которые могут ускорить исследования и разработки в области ИИ до потенциально дестабилизирующих уровней.
Помимо рисков misuse, возникающих из этих capabilities, существуют также риски misalignment, проистекающие из потенциала модели к ненаправленным действиям на этих уровнях capabilities, и вероятной интеграции таких моделей в процессы разработки и развёртывания ИИ.
Для решения рисков, создаваемых УКВ, мы проводим обзоры safety case перед внешними запусками, когда достигаются соответствующие УКВ. Это включает выполнение детальных анализов, демонстрирующих, как риски были снижены до управляемых уровней. Для передовых УКВ машинного обучения и разработки, крупномасштабные внутренние развёртывания также могут представлять риск, поэтому мы теперь расширяем этот подход, чтобы включить такие развёртывания.
Усовершенствование процесса оценки рисков
Наш механизм разработан для решения рисков пропорционально их серьёзности. Мы уточнили наши определения УКВ, специально чтобы идентифицировать критические угрозы, которые требуют наиболее rigorous управления и стратегий смягчения. Мы продолжаем применять меры безопасности и защиты до достижения specific порогов УКВ и как часть нашего стандартного подхода к разработке моделей.
Наконец, в этом обновлении мы подробнее описываем наш процесс оценки рисков. Основываясь на наших core early-warning оценках, мы описываем, как мы проводим holistic оценки, которые включают систематическую идентификацию рисков, comprehensive анализы capabilities моделей и explicit определения приемлемости рисков.
Продвижение нашего commitment к безопасности передовых технологий
Это последнее обновление нашего Пограничного механизма безопасности представляет наше continued commitment к научному и evidence-based подходу для отслеживания и упреждающего реагирования на риски ИИ по мере развития capabilities в направлении AGI. Расширяя области рисков и усиливая процессы оценки рисков, мы aim обеспечить, чтобы transformative ИИ приносил пользу человечеству, минимизируя потенциальный вред.
Наш механизм будет продолжать эволюционировать на основе новых исследований, input заинтересованных сторон и уроков от реализации. Мы остаёмся committed к collaborative работе across индустрии, академии и правительства.
Путь к beneficial AGI требует не только технических прорывов, но и robust механизмов для смягчения рисков along the way. Мы надеемся, что наш обновлённый Пограничный механизм безопасности вносит meaningful вклад в это collective усилие.