
Введение в хранилища признаков
Хранилища признаков давно перестали быть экзотикой в инфраструктуре и превратились в важный инструмент, который расширяет возможности данных пайплайнов, в первую очередь связанных с машинным обучением и системами ИИ. Их популярность взлетела именно сейчас из-за перехода компаний от разовых экспериментов с моделями машинного обучения к созданию полноценных масштабируемых продуктов и сервисов на базе ИИ.
Эта статья знакомит с хранилищами признаков: их историей, основными свойствами, причинами актуальности сегодня и популярными инструментами.
История и развитие хранилищ признаков
Термин "хранилище признаков" придумали в Uber в 2017 году. Они хотели упростить хаос в данных пайплайнах и обеспечить управление признаками с едиными правилами. В итоге появился централизованный репозиторий для хранения, обмена и повторного использования признаков в разных моделях машинного обучения и проектах, при этом данные для обучения и работы в продакшене оставались согласованными.
В 2019 году бывшие инженеры Uber основали первую коммерческую компанию по хранилищам признаков — Tecton. Они стремились вывести такие решения на рынок для всех предприятий, а запуск продукта случился в 2020-м. Параллельно облачные платформы вроде Amazon Web Services (AWS), Google Cloud и Microsoft Azure запустили свои встроенные хранилища признаков. Эти сервисы тесно связаны с платформами машинного обучения и продолжают развиваться.
Хранилище признаков — это централизованная система, где определяют и управляют всеми признаками данных не для одного датасета, а для целой области машинного обучения — группы моделей под общими бизнес-целями — или всей организации. В нём признаки задают декларативно: указывают бизнес-значение, исходные данные, логику преобразований, метаданные и доступность для оффлайн-обучения или онлайн-инференса моделей.
Такое хранилище выступает как единый источник истины по признакам в бизнес-домене. Повторное использование признаков, согласованность между обучением и инференсом, а также база для управления, мониторинга и масштабирования операций машинного обучения — вот что отличает современные системы.
В хранилище признаков задают признаки декларативно: с указанием бизнес-семантики, исходных данных, логики преобразований, связанных метаданных и доступности для оффлайн-обучения или онлайн-инференса моделей.
Как работают хранилища признаков: на примере
Чтобы разобраться в основных понятиях и возможностях, рассмотрим ситуацию с интернет-магазином, который разрабатывает модели для обнаружения мошенничества.
Компания создала хранилище признаков с помощью облачного провайдера. Оно управляет общими признаками для моделей обнаружения фрода: количество транзакций пользователя за последние 24 часа, средняя сумма транзакций за неделю, число разных способов оплаты за месяц, время с последней транзакции и другие.
Посмотрим подробнее на один признак user_transaction_count_24h:
- Бизнес-семантика: для конкретного пользователя показывает количество начатых транзакций за последние 24 часа.
- Исходные данные: признак берётся из таблицы
transactions— событийной таблицы с колонкамиuser_id,transaction_timestampsиstatus. - Логика преобразований: считается количество транзакций со статусом
initiated, сгруппированных по уникальнымuser_id, в скользящем окне 24 часа. - Метаданные:
- Владелец: команда машинного обучения по фроду.
- Тип:
integer. - Окно:
24h. - Freshness SLA (Service Level Agreement): 5 минут.
- Доступность: подходит как для оффлайн-обучения, так и для онлайн-инференса.
SLA по свежести означает, насколько актуальным должен быть признак, чтобы модель могла его использовать. Это помогает хранилищам признаков гарантировать надёжность и стабильность поведения моделей машинного обучения.

Почему хранилища признаков на пике популярности и топ-инструменты
Хотя идея не нова, хранилища признаков стали ключевым трендом в data science и ИИ. Вот основные причины:
- С ростом агентного ИИ их ценность выросла: они поставляют качественные признаки в реальном времени, необходимые продвинутым агентам для самостоятельного выполнения сложных многошаговых задач.
- Компании всё чаще ставят данные инфраструктуру выше изолированных моделей машинного обучения. Хранилища признаков как раз связывают всё воедино.
- Они избавляют data-инженеров от дублирования работы, делая повторное использование готовых продакшен-признаков стандартом.
- Такие системы соответствуют новым строгим правилам по ИИ, особенно по централизации и прозрачности.
- Для задач вроде гиперперсонализации в ритейле хранилища позволяют анализировать данные в реальном времени на новом уровне.
- По расходам они снижают затраты на инфраструктуру, избегая лишней обработки данных и уменьшая нагрузку на вычисления.
Вот популярные инструменты хранилищ признаков, которые используют многие компании для современных приложений ИИ:
- Feast: открытый инструмент, подходит командам с сильными инженерными ресурсами, которые избегают привязки к вендорам.
- Tecton (Databricks): недавно куплен Databricks, полностью управляемое масштабируемое решение для сложных пайплайнов реального времени.
- Google Cloud Vertex AI Feature Store: выделяется интеграцией с Google BigQuery и топовыми генеративными моделями ИИ.
- Amazon SageMaker Feature Store: глубоко встроен в AWS, поддерживает получение признаков пакетно и в реальном времени.
Итоги
Хранилища признаков набирают обороты на фоне свежих достижений в ИИ и растущих нужд компаний в адаптации к изменениям. Эта статья даёт базовое представление о них: что это такое, их свойства, путь развития и ключевые инструменты.