Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Хранилища признаков: полный гид

Хранилища признаков стали неотъемлемой частью инфраструктуры ИИ, помогая управлять данными для моделей машинного обучения. Статья разбирает их историю от Uber до облачных сервисов, примеры работы и популярные инструменты вроде Feast и Tecton. Они решают проблемы согласованности данных, повторного использования и масштабирования.

16 февраля 2026 г.
6 мин
20
Всё о хранилищах признаков

Введение в хранилища признаков

Хранилища признаков давно перестали быть экзотикой в инфраструктуре и превратились в важный инструмент, который расширяет возможности данных пайплайнов, в первую очередь связанных с машинным обучением и системами ИИ. Их популярность взлетела именно сейчас из-за перехода компаний от разовых экспериментов с моделями машинного обучения к созданию полноценных масштабируемых продуктов и сервисов на базе ИИ.

Эта статья знакомит с хранилищами признаков: их историей, основными свойствами, причинами актуальности сегодня и популярными инструментами.

История и развитие хранилищ признаков

Термин "хранилище признаков" придумали в Uber в 2017 году. Они хотели упростить хаос в данных пайплайнах и обеспечить управление признаками с едиными правилами. В итоге появился централизованный репозиторий для хранения, обмена и повторного использования признаков в разных моделях машинного обучения и проектах, при этом данные для обучения и работы в продакшене оставались согласованными.

В 2019 году бывшие инженеры Uber основали первую коммерческую компанию по хранилищам признаков — Tecton. Они стремились вывести такие решения на рынок для всех предприятий, а запуск продукта случился в 2020-м. Параллельно облачные платформы вроде Amazon Web Services (AWS), Google Cloud и Microsoft Azure запустили свои встроенные хранилища признаков. Эти сервисы тесно связаны с платформами машинного обучения и продолжают развиваться.

Хранилище признаков — это централизованная система, где определяют и управляют всеми признаками данных не для одного датасета, а для целой области машинного обучения — группы моделей под общими бизнес-целями — или всей организации. В нём признаки задают декларативно: указывают бизнес-значение, исходные данные, логику преобразований, метаданные и доступность для оффлайн-обучения или онлайн-инференса моделей.

Такое хранилище выступает как единый источник истины по признакам в бизнес-домене. Повторное использование признаков, согласованность между обучением и инференсом, а также база для управления, мониторинга и масштабирования операций машинного обучения — вот что отличает современные системы.

В хранилище признаков задают признаки декларативно: с указанием бизнес-семантики, исходных данных, логики преобразований, связанных метаданных и доступности для оффлайн-обучения или онлайн-инференса моделей.

Как работают хранилища признаков: на примере

Чтобы разобраться в основных понятиях и возможностях, рассмотрим ситуацию с интернет-магазином, который разрабатывает модели для обнаружения мошенничества.

Компания создала хранилище признаков с помощью облачного провайдера. Оно управляет общими признаками для моделей обнаружения фрода: количество транзакций пользователя за последние 24 часа, средняя сумма транзакций за неделю, число разных способов оплаты за месяц, время с последней транзакции и другие.

Посмотрим подробнее на один признак user_transaction_count_24h:

  • Бизнес-семантика: для конкретного пользователя показывает количество начатых транзакций за последние 24 часа.
  • Исходные данные: признак берётся из таблицы transactions — событийной таблицы с колонками user_id, transaction_timestamps и status.
  • Логика преобразований: считается количество транзакций со статусом initiated, сгруппированных по уникальным user_id, в скользящем окне 24 часа.
  • Метаданные:
    • Владелец: команда машинного обучения по фроду.
    • Тип: integer.
    • Окно: 24h.
    • Freshness SLA (Service Level Agreement): 5 минут.
  • Доступность: подходит как для оффлайн-обучения, так и для онлайн-инференса.

SLA по свежести означает, насколько актуальным должен быть признак, чтобы модель могла его использовать. Это помогает хранилищам признаков гарантировать надёжность и стабильность поведения моделей машинного обучения.

Пример спецификаций признаков в хранилище
Пример спецификаций признаков в хранилище признаков

Почему хранилища признаков на пике популярности и топ-инструменты

Хотя идея не нова, хранилища признаков стали ключевым трендом в data science и ИИ. Вот основные причины:

  • С ростом агентного ИИ их ценность выросла: они поставляют качественные признаки в реальном времени, необходимые продвинутым агентам для самостоятельного выполнения сложных многошаговых задач.
  • Компании всё чаще ставят данные инфраструктуру выше изолированных моделей машинного обучения. Хранилища признаков как раз связывают всё воедино.
  • Они избавляют data-инженеров от дублирования работы, делая повторное использование готовых продакшен-признаков стандартом.
  • Такие системы соответствуют новым строгим правилам по ИИ, особенно по централизации и прозрачности.
  • Для задач вроде гиперперсонализации в ритейле хранилища позволяют анализировать данные в реальном времени на новом уровне.
  • По расходам они снижают затраты на инфраструктуру, избегая лишней обработки данных и уменьшая нагрузку на вычисления.

Вот популярные инструменты хранилищ признаков, которые используют многие компании для современных приложений ИИ:

  1. Feast: открытый инструмент, подходит командам с сильными инженерными ресурсами, которые избегают привязки к вендорам.
  2. Tecton (Databricks): недавно куплен Databricks, полностью управляемое масштабируемое решение для сложных пайплайнов реального времени.
  3. Google Cloud Vertex AI Feature Store: выделяется интеграцией с Google BigQuery и топовыми генеративными моделями ИИ.
  4. Amazon SageMaker Feature Store: глубоко встроен в AWS, поддерживает получение признаков пакетно и в реальном времени.

Итоги

Хранилища признаков набирают обороты на фоне свежих достижений в ИИ и растущих нужд компаний в адаптации к изменениям. Эта статья даёт базовое представление о них: что это такое, их свойства, путь развития и ключевые инструменты.

Горячее

Загружаем популярные статьи...