7 библиотек Python для инженерии признаков на масштабе

7 незаметных библиотек Python для масштабируемой инженерии признаков

Введение

Создание признаков составляет основу процессов в data science, машинном обучении и любых ИИ-системах. Оно помогает превращать сырые, часто хаотичные данные в полезные переменные для моделей. Сложность таких операций сильно варьируется: от простых шагов до запутанных цепочек преобразований, в зависимости от размера датасетов, их разнообразия и задач моделирования.

Хотя популярные инструменты вроде Pandas и scikit-learn покрывают базовые нужды в манипуляциях с данными, существуют специализированные библиотеки. Они справляются с огромными объемами информации и автоматизируют тяжелые трансформации, но остаются вне поля зрения многих специалистов.

Здесь собраны 7 таких библиотек Python, которые выводят процессы создания признаков на новый уровень масштаба.

1. Ускорение с NVTabular

Среди первых выделяется NVTabular от NVIDIA-Merlin. Эта библиотека заточена под предобработку и формирование признаков для табличных данных. Ее ключевое преимущество — ускорение на GPU, что позволяет без проблем работать с гигантскими датасетами для обучения мощных глубоких нейросетей. Особо полезна она для пайплайнов рекомендательных систем на базе DNN.

2. Автоматизация с FeatureTools

FeatureTools от Alteryx упрощает рутину за счет автоматизации. Она использует алгоритм deep feature synthesis (DFS), который анализирует связи в данных математически и генерирует новые, многоуровневые признаки. Подходит для реляционных наборов и временных рядов, минимизируя объем кода для сложных операций.

Вот пример, как запустить DFS на данных о клиентах с помощью featuretools:

customers_df = pd.DataFrame({'customer_id': [101, 102]}) es = es.add_dataframe( dataframe_name="customers", dataframe=customers_df, index="customer_id" ) es = es.add_relationship( parent_dataframe_name="customers", parent_column_name="customer_id", child_dataframe_name="transactions", child_column_name="customer_id" )

3. Параллелизация с Dask

Dask набирает обороты как инструмент для ускорения параллельных вычислений на Python. Суть в том, чтобы расширять трансформации из Pandas и scikit-learn на кластеры, делая пайплайны создания признаков быстрыми и экономичными даже для датасетов, которые не помещаются в память.

Эта статья демонстрирует практический пример предобработки данных с Dask.

4. Оптимизация с Polars

Рядом с Dask по популярности и в конкуренции с Pandas стоит Polars — библиотека на Rust с ленивым API и отложенными вычислениями. Она обеспечивает высокую производительность при трансформациях и создании признаков на огромных датасетах. Если вы уже знаете Pandas, освоить Polars будет легко.

Хотите подробностей? Эта статья приводит однострочники Polars для типичных задач data science, включая формирование признаков.

5. Хранение с Feast

Feast — это открытый feature store для поставки структурированных данных в продакшн ИИ-приложений на больших масштабах, особенно для моделей на базе LLM. Работает как на этапе обучения, так и инференса, гарантируя согласованность между ними. Часто комбинируется с другими фреймворками вроде denormalized для задач инженерии признаков.

6. Извлечение с tsfresh

Для больших временных рядов подойдет tsfresh — пакет для масштабируемого извлечения признаков. Он рассчитывает сотни характеристик: от статистических до спектральных, плюс фильтрует их по релевантности для моделирования.

Пример кода: берем DataFrame с оконными временными рядами и применяем извлечение:

features_rolled = extract_features( rolled_df, column_id='id', column_sort='time', default_fc_parameters=settings, n_jobs=0 )

7. Оптимизация потоков с River

Завершает список River — библиотека для онлайн-машинного обучения. Среди ее возможностей — трансформации и обучение признакам в потоке данных. Это решает проблемы с бесконечными потоками и сдвигами концепции в продакшене, а также с появлением или пропаданием фич со временем — то, с чем батч-системы справляются плохо.

Итоги

В обзоре рассмотрены 7 библиотек Python, которые делают создание признаков более масштабируемым. Одни из них заточены именно под такие задачи, другие усиливают их в комбинации с другими инструментами для конкретных сценариев.

7 библиотек Python для масштабируемой инженерии признаков