Подход Google DeepMind к анализу и снижению будущих рисков, связанных с продвинутыми моделями искусственного интеллекта.
Google DeepMind постоянно расширяет границы искусственного интеллекта, создавая модели, которые радикально меняют наше представление о возможностях этой технологии. Считается, что предстоящие разработки в области ИИ предоставят обществу мощные инструменты для решения ключевых глобальных проблем, включая изменение климата, поиск лекарств и повышение экономической эффективности. В то же время признается, что дальнейшее продвижение на передний край возможностей ИИ может со временем привести к новым рискам, выходящим за рамки угроз от существующих моделей.
В настоящее время представлена <a href="https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/introducing-the-frontier-safety-framework/fsf-technical-report.pdf" rel="noopener" target="_blank">Рамочная система безопасности Frontier</a> — комплекс протоколов для предварительного выявления будущих возможностей ИИ, способных нанести серьезный вред, и внедрения механизмов для их обнаружения и нейтрализации. Эта система акцентирует внимание на серьезных рисках, возникающих из мощных возможностей на уровне модели, таких как выдающаяся автономность или сложные киберспособности. Она предназначена для дополнения исследований по согласованности, которые обучают модели действовать в соответствии с человеческими ценностями и общественными целями, а также существующего набора практик Google по ответственности и безопасности ИИ <a href="https://ai.google/responsibility/principles/" rel="noopener" target="_blank">.</a>
Рамочная система носит исследовательский характер, и ожидается, что она существенно эволюционирует по мере получения опыта от ее применения, углубления понимания рисков ИИ и методов оценки, а также сотрудничества с представителями индустрии, академических кругов и государственных органов. Хотя эти риски пока недостижимы для современных моделей, внедрение и совершенствование системы должно помочь подготовиться к их преодолению. Планируется полное реализация начальной версии к началу 2025 года.
Рамочная система
Первая версия системы, объявленная сегодня, опирается на <a href="https://deepmind.google/discover/blog/an-early-warning-system-for-novel-ai-risks/" rel="noopener" target="_blank">исследования</a> Google DeepMind по <a href="https://arxiv.org/abs/2403.13793" rel="noopener" target="_blank">оценке</a> ключевых возможностей в передовых моделях и следует растущему подходу <a href="https://www.gov.uk/government/publications/emerging-processes-for-frontier-ai-safety/emerging-processes-for-frontier-ai-safety" rel="noopener" target="_blank">ответственного масштабирования возможностей.</a> Система включает три основных компонента:
- Выявление возможностей модели, потенциально способных нанести серьезный вред. Для этого проводятся исследования путей, по которым модель может вызвать значительный ущерб в высокорисковых областях, после чего определяется минимальный уровень способностей, необходимый модели для участия в таких сценариях. Эти уровни называются «Критическими уровнями возможностей» (CCL), и они определяют подход к оценке и снижению рисков.
- Периодическая оценка передовых моделей для обнаружения достижения этих Критических уровней возможностей. Для этого разрабатываются наборы оценок моделей, называемые «оценками раннего предупреждения», которые сигнализируют о приближении к CCL, и проводятся с достаточной частотой, чтобы обеспечить уведомление до пересечения порога.
- Внедрение плана минимизации при прохождении моделью оценок раннего предупреждения. Этот план учитывает общий баланс преимуществ и рисков, а также предполагаемые контексты развертывания. Меры минимизации в основном сосредоточены на безопасности (предотвращение утечки моделей) и развертывании (предотвращение злоупотребления критическими возможностями).
Домены рисков и уровни минимизации
Начальный набор Критических уровней возможностей основан на изучении четырех доменов: автономности, биобезопасности, кибербезопасности и исследований и разработок в области машинного обучения (R&D). Исследования показывают, что возможности будущих базовых моделей с наибольшей вероятностью создадут серьезные риски именно в этих областях.
В отношении автономности, кибербезопасности и биобезопасности основная цель — оценить степень, в которой злоумышленники могут использовать модель с продвинутыми возможностями для проведения вредоносных действий с тяжелыми последствиями. Для домена R&D акцент делается на том, смогут ли модели с такими возможностями способствовать распространению других моделей с критическими возможностями или привести к быстрому и неконтролируемому ускорению развития ИИ. По мере дальнейших исследований этих и других доменов рисков ожидается эволюция CCL и добавление нескольких уровней на более высоких отметках или в иных областях рисков.
Чтобы адаптировать интенсивность минимизационных мер к каждому CCL, также описан набор мер по безопасности и развертыванию. Более высокий уровень мер безопасности обеспечивает усиленную защиту от утечки весов модели, а более строгие меры развертывания позволяют лучше контролировать критические возможности. Однако такие подходы могут замедлить темпы инноваций и ограничить широкую доступность возможностей. Найти оптимальный баланс между снижением рисков и стимулированием доступа и инноваций критически важен для ответственного развития ИИ. Оценивая общие преимущества по сравнению с рисками и учитывая контекст разработки и развертывания моделей, стремление заключается в обеспечении ответственного прогресса ИИ, который высвободит трансформационный потенциал, одновременно защищая от непреднамеренных последствий.
Инвестиции в науку
Исследования, лежащие в основе Рамочной системы, находятся на ранней стадии и развиваются стремительно. Значительные ресурсы вложены в Команду безопасности переднего края, которая координировала межфункциональные усилия по созданию системы. Их задача — продвигать науку оценки рисков передового уровня и уточнять систему на основе накопленных знаний.
Команда разработала набор оценок для анализа рисков от критических возможностей, с особым упором на автономных агентов на базе больших языковых моделей, и протестировала его на передовых моделях. Их <a href="https://arxiv.org/abs/2403.13793" rel="noopener" target="_blank">недавняя статья</a>, описывающая эти оценки, также рассматривает механизмы, которые могут лечь в основу будущей «<a href="https://deepmind.google/discover/blog/an-early-warning-system-for-novel-ai-risks/" rel="noopener" target="_blank">системы раннего предупреждения</a>». В ней изложены технические методы для определения близости модели к успешному выполнению задачи, которую она пока не может решить, а также прогнозы о будущих возможностях от команды экспертов-прогнозистов.
Соблюдение принципов ИИ
Рамочная система будет регулярно пересматриваться и развиваться. В частности, по мере тестирования системы и углубления понимания доменов рисков, CCL и контекстов развертывания продолжится работа по калибровке конкретных мер минимизации под CCL.
В основе всей деятельности лежат <a href="https://ai.google/responsibility/principles/" rel="noopener" target="_blank">принципы ИИ Google</a>, которые обязывают стремиться к широким преимуществам при одновременном снижении рисков. По мере улучшения систем и роста их возможностей меры вроде Рамочной системы безопасности обеспечат соответствие практик этим обязательствам.
Ожидается сотрудничество с другими участниками индустрии, академических кругов и государственных структур для развития и уточнения системы. Делиться подходами должно способствовать совместной работе по согласованию стандартов и лучших практик для оценки безопасности будущих поколений моделей ИИ.