OpenAI выпустила Privacy Filter — открытую модель, которая находит и маскирует персональные данные в текстовых данных.
Этот инструмент создан для команд, работающих с большими объемами текста: его очищают перед обучением собственных ИИ-моделей или передачей партнерам. Модель содержит 1,5 миллиарда параметров, но на каждый запрос задействует лишь 50 миллионов. Она запускается на обычном ноутбуке или прямо в браузере, полностью поддерживая локальный режим без облачных сервисов, уточняет OpenAI. Доступна по ссылке на GitHub.
Privacy Filter распознает восемь видов конфиденциальной информации: имена, адреса, электронные почты, номера телефонов, URL-адреса, даты, номера счетов, а также секреты вроде паролей или API-ключей. В отличие от обычных чат-ботов модель не генерирует текст. Она проходит по данным единожды, помечая фрагменты по соответствующим категориям. Благодаря окну контекста в 128 000 токенов она справляется с длинными документами без необходимости их разбивать.
Настройки позволяют выбрать режим работы: агрессивный с высоким охватом (но с большим числом ложных срабатываний) или осторожный (меньше ошибок, но возможны пропуски). Команды с собственными наборами данных могут дополнительно дообучить модель.
Инструмент распространяется под лицензией Apache 2.0. Его можно скачать с Hugging Face, коммерческое применение разрешено.
Четкие ограничения для работы с конфиденциальными сценариями
OpenAI прямо указывает: Privacy Filter не дает юридических гарантий анонимизации или соблюдения регуляций. Это всего лишь один компонент комплексной защиты данных.
Среди слабых мест — пропуски редких или локальных имен, неверная маскировка известных личностей и организаций, снижение качества на неанглийских текстах или в нелатинских системах письма.
В сферах вроде медицины, юриспруденции, финансов или управления персоналом разработчики советуют обязательно привлекать специалистов для проверки. Категории распознавания нельзя корректировать во время выполнения — для других правил потребуется дообучение модели.