OpenAI выпустила Privacy Filter для очистки текста

OpenAI открыла Privacy Filter — компактную модель для поиска и скрытия персональных данных в тексте, с 1,5 млрд параметров и локальным запуском. Она маркирует восемь категорий PII в длинных документах и позволяет настройку точности. Разработчики предупреждают об ограничениях и необходимости человеческого контроля в чувствительных областях.

OpenAI выпустила Privacy Filter — открытую модель, которая находит и маскирует персональные данные в текстовых данных.

Этот инструмент создан для команд, работающих с большими объемами текста: его очищают перед обучением собственных ИИ-моделей или передачей партнерам. Модель содержит 1,5 миллиарда параметров, но на каждый запрос задействует лишь 50 миллионов. Она запускается на обычном ноутбуке или прямо в браузере, полностью поддерживая локальный режим без облачных сервисов, уточняет OpenAI. Доступна по ссылке на GitHub.

Privacy Filter распознает восемь видов конфиденциальной информации: имена, адреса, электронные почты, номера телефонов, URL-адреса, даты, номера счетов, а также секреты вроде паролей или API-ключей. В отличие от обычных чат-ботов модель не генерирует текст. Она проходит по данным единожды, помечая фрагменты по соответствующим категориям. Благодаря окну контекста в 128 000 токенов она справляется с длинными документами без необходимости их разбивать.

Настройки позволяют выбрать режим работы: агрессивный с высоким охватом (но с большим числом ложных срабатываний) или осторожный (меньше ошибок, но возможны пропуски). Команды с собственными наборами данных могут дополнительно дообучить модель.

Инструмент распространяется под лицензией Apache 2.0. Его можно скачать с Hugging Face, коммерческое применение разрешено.

Четкие ограничения для работы с конфиденциальными сценариями

OpenAI прямо указывает: Privacy Filter не дает юридических гарантий анонимизации или соблюдения регуляций. Это всего лишь один компонент комплексной защиты данных.

Среди слабых мест — пропуски редких или локальных имен, неверная маскировка известных личностей и организаций, снижение качества на неанглийских текстах или в нелатинских системах письма.

В сферах вроде медицины, юриспруденции, финансов или управления персоналом разработчики советуют обязательно привлекать специалистов для проверки. Категории распознавания нельзя корректировать во время выполнения — для других правил потребуется дообучение модели.

OpenAI представила Privacy Filter для очистки текста

Четкие ограничения для работы с конфиденциальными сценариями

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде