По мере того как искусственный интеллект все глубже проникает в повседневную жизнь, создание систем с акцентом на конфиденциальность становится ключевым направлением развития этой области. Дифференциальная приватность (DP) предоставляет математически обоснованный подход, вводя контролируемый шум для предотвращения запоминания данных. Тем не менее, внедрение DP в большие языковые модели (LLM) влечет определенные компромиссы. Осмысление этих компромиссов имеет первостепенное значение. Добавление шума DP изменяет классические законы масштабирования — принципы, описывающие динамику производительности, — снижая устойчивость обучения (способность модели стабильно усваивать знания без резких скачков потерь или расходимости) и существенно повышая размер пакета (группу примеров обучения, подаваемую модели одновременно) и вычислительные затраты.
Новое исследование под названием «Законы масштабирования для дифференциально-приватных языковых моделей», выполненное в сотрудничестве с Google DeepMind, формулирует принципы, точно отражающие эти нюансы и дающие полное представление о компромиссах между вычислениями, приватностью и полезностью. Опираясь на результаты этого исследования, представлена VaultGemma — крупнейшая (1 млрд параметров) открытая модель, обученная с нуля с использованием дифференциальной приватности.
Понимание законов масштабирования
С помощью тщательно продуманной экспериментальной методологии ставилась цель количественно оценить преимущества роста размеров модели, размеров пакетов и числа итераций в условиях обучения с DP. Для преодоления экспоненциального количества возможных комбинаций были приняты упрощающие предположения. Предполагалось, что эффективность обучения модели в основном определяется «соотношением шум-пакет», которое сравнивает объем добавляемого случайного шума для обеспечения приватности с размером групп данных (пакетов), используемых в обучении. Это предположение оправдано, поскольку шум приватности значительно превышает естественную случайность, возникающую при выборке данных.
Для формулировки закона масштабирования с DP был проведен обширный цикл экспериментов по оценке производительности на различных размерах моделей и соотношениях шум-пакет. Полученные эмпирические данные в сочетании с известными детерминированными зависимостями между другими переменными позволяют отвечать на множество вопросов в стиле законов масштабирования, например: «При заданном бюджете вычислений, бюджете приватности и бюджете данных какая оптимальная конфигурация обучения обеспечит минимальные потери?»
Основные выводы: Мощная синергия
Прежде чем углубляться в полные законы масштабирования, полезно разобраться в динамике и взаимодействиях между бюджетом вычислений, бюджетом приватности и бюджетом данных с точки зрения учета приватности — то есть понять, как эти факторы влияют на соотношение шум-пакет при фиксированном размере модели и числе итераций. Такой анализ обходится гораздо дешевле, поскольку не требует обучения моделей, но при этом дает ряд ценных наблюдений. Например, изолированное увеличение бюджета приватности приводит к убывающей отдаче, если не сопровождается ростом либо бюджета вычислений (FLOPs), либо бюджета данных (токенов).
Чтобы глубже изучить эту синергию, ниже приведена визуализация, иллюстрирующая изменения оптимальной конфигурации обучения в зависимости от различных ограничений. По мере вариации бюджетов приватности и вычислений видно, как рекомендации смещаются от инвестиций в более крупную модель к использованию больших размеров пакетов или большего числа итераций.
Эти данные содержат множество полезных выводов для специалистов. Хотя все наблюдения детализированы в публикации, ключевое заключение заключается в том, что следует обучать существенно меньшую модель с гораздо большим размером пакета, чем в сценариях без DP. Этот общий вывод не удивит эксперта по DP, учитывая роль больших пакетов. Хотя принцип сохраняется в большинстве случаев, оптимальные конфигурации варьируются в зависимости от бюджетов приватности и данных. Точное понимание компромиссов критично для рационального использования бюджетов вычислений и приватности в реальных сценариях обучения. Указанные визуализации также показывают наличие гибкости в конфигурациях обучения — то есть диапазон размеров моделей может давать схожую полезность при правильном подборе числа итераций и/или размера пакета.
Применение законов масштабирования для создания VaultGemma
Модели Gemma изначально ориентированы на ответственность и безопасность, что делает их идеальной основой для разработки производственной модели с DP, такой как VaultGemma.
Алгоритмические улучшения: Обучение в масштабе
Выводимые выше законы масштабирования означают важный начальный этап в обучении полезной модели Gemma с DP. Они использовались для расчета необходимого объема вычислений для compute-оптимальной модели на базе Gemma 2 с 1 млрд параметров при DP, а также для распределения этих вычислений между размером пакета, итерациями и длиной последовательности с целью достижения максимальной полезности.
Одним из заметных различий между исследованием, лежащим в основе законов масштабирования, и реальным обучением VaultGemma стал подход к пуассоновской выборке, которая является ключевым элементом DP-SGD. Изначально применялся простой метод загрузки данных в равномерные пакеты, но затем перешли к пуассоновской выборке для обеспечения наилучших гарантий приватности с минимальным шумом. Этот метод создавал пакеты переменного размера и требовал специфического случайного порядка обработки данных. Проблема решена с помощью недавней разработки по масштабируемому DP-SGD, позволяющей обрабатывать данные в пакетах фиксированного размера — путем добавления заполнителей или обрезки — при сохранении надежных защит приватности.
Результаты
Опираясь на новые законы масштабирования и продвинутые алгоритмы обучения, создана VaultGemma — на данный момент крупнейшая (1 млрд параметров) открытая модель, полностью предобученная с дифференциальной приватностью методом, способным генерировать высокополезные модели.
В процессе обучения VaultGemma подтверждена высокая точность выводимых законов масштабирования. Конечные потери обучения оказались удивительно близки к предсказаниям формул, что подтверждает надежность исследования и дает сообществу ориентир для разработки будущих приватных моделей.
Кроме того, производительность модели на downstream-задачах сравнивается с не-приватной версией по ряду стандартных академических бенчмарков (то есть HellaSwag, BoolQ, PIQA, SocialIQA, TriviaQA, ARC-C, ARC-E). Для контекста и оценки текущих затрат на приватность приведено сравнение с более старой моделью GPT-2 аналогичного размера, показывающей схожие результаты на этих бенчмарках. Это сравнение демонстрирует, что современные методы приватного обучения создают модели с полезностью, сравнимой с не-приватными моделями примерно 5-летней давности, подчеркивая разрыв, который работа поможет сообществу последовательно преодолеть.
Наконец, модель оснащена надежными теоретическими и эмпирическими механизмами защиты приватности.
Формальная гарантия приватности
В общем случае параметры приватности (ε, δ) и единица приватности играют ключевую роль в обучении с DP, поскольку вместе определяют, что может выучить модель. VaultGemma обучена с гарантией дифференциальной приватности на уровне последовательности (ε ≤ 2.0, δ ≤ 1.1e-10), где последовательность — это 1024 последовательных токена, извлеченных из разнородных источников данных. Конкретно, использована та же смесь обучения, что и для Gemma 2, состоящая из документов различной длины. На этапе предобработки длинные документы разбиваются и токенизируются в несколько последовательностей, а короткие упаковываются в одну. Хотя единица приватности на уровне последовательности подходит для смеси обучения, в случаях с четким соответствием данных пользователям предпочтительнее дифференциальная приватность на уровне пользователя.
Что это значит на практике? Неформально говоря, поскольку защита обеспечивается на уровне последовательности, если информация о любом (потенциально конфиденциальном) факте или выводе содержится в одной последовательности, VaultGemma по сути не знает этот факт: ответ на любой запрос будет статистически похож на результат модели, не обученной на этой последовательности. Однако если множество последовательностей обучения содержит релевантную информацию о факте, модель в целом сможет ее предоставить.
Эмпирическая меморизация
Для дополнения гарантии DP на уровне последовательности проведены дополнительные тесты эмпирических свойств приватности обученной модели. Для этого модель промптировали 50-токенным префиксом из документа обучения, чтобы проверить генерацию соответствующего 50-токенного суффикса. VaultGemma 1B не демонстрирует заметной меморизации обучающих данных и убедительно подтверждает эффективность обучения с DP.
Заключение
VaultGemma знаменует важный прогресс на пути к созданию ИИ, который сочетает мощность и приватность по умолчанию. Разрабатывая и применяя новое, надежное понимание законов масштабирования для DP, удалось успешно обучить и выпустить крупнейшую открытую языковую модель с DP на сегодняшний день.
Хотя разрыв в полезности между моделями с DP и без DP все еще существует, считается, что его можно последовательно сократить с помощью дальнейших исследований по проектированию механизмов для обучения с DP. Надеется, что VaultGemma и сопутствующее исследование вдохновят сообщество на создание следующего поколения безопасного, ответственного и приватного ИИ для всех.