Машинное обучение (МО) занимает центральное место в экономике, социальных науках и принятии бизнес-решений. В государственной сфере МО все чаще применяется для задач прогнозирования в политике: ситуаций, где власти стремятся выявить наиболее уязвимые объекты и провести превентивные меры; например, распределение государственных субсидий, прогнозирование локальных спадов или предвидение миграционных тенденций. В коммерческой области аналогичные прогностические задания возникают при необходимости предсказывать отток клиентов или улучшать оценку кредитных рисков. Во всех этих сферах точные прогнозы способствуют рациональному распределению средств и повышению эффективности мер.
Для реализации таких задач алгоритмы МО все шире используются с панельными данными, которые включают многократные наблюдения за одними и теми же объектами в разные периоды времени. Тем не менее, модели МО изначально не предназначались для работы с панельными данными, обладающими уникальными поперечными и временными измерениями. Применение МО к панельным данным чревато серьезной, но незаметной угрозой: утечкой данных. Это явление возникает, когда сведения, недоступные на момент прогнозирования, случайно попадают в процесс обучения модели, завышая ее предсказательную способность. В нашей работе, посвященной неправильному использованию машинного обучения с панельными данными, мы впервые провели всесторонний анализ утечки данных в МО с панельными данными, разработали четкие рекомендации для специалистов и продемонстрировали последствия на примере эмпирического исследования с открытыми данными по округам США.
Проблема утечки данных
Панельные данные объединяют две структуры: временную (наблюдения за объектами во времени) и поперечную (множество объектов, таких как регионы или компании). Обычная практика МО, предполагающая случайное разделение выборки на обучающую и тестовую, базируется на предположении о независимой и одинаково распределенной (i.i.d.) выборке. Это предположение нарушается при стандартных процедурах МО (например, случайном разделении) для панельных данных, что приводит к двум основным видам утечки:
- Временная утечка: информация из будущего проникает в модель на этапе обучения, делая прогнозы искусственно точными. Кроме того, данные из прошлого могут оказаться в тестовой выборке, превращая 'прогнозы' в ретроспективные оценки.
- Поперечная утечка: одни и те же или очень похожие объекты присутствуют как в обучающей, так и в тестовой выборках, то есть модель уже 'знакома' с большинством поперечного среза данных.
Различные стратегии разделения влияют на риск утечки по-разному. Случайное разделение на уровне объект-время (вариант A) наиболее опасно, поскольку вызывает как временную, так и поперечную утечку. Другие варианты, такие как разделение по объектам (вариант B), по группам (вариант C) или по времени (вариант D), устраняют один тип утечки, но оставляют другой. В итоге ни один метод не решает проблему полностью: выбор подходящего подхода зависит от конкретной задачи (см. ниже), поскольку в некоторых сценариях один вид утечки может не представлять угрозы.
На иллюстрации показаны обучающая и тестовая выборки при разных правилах разделения. В примере панельные данные организованы с годами как временной переменной, округами как переменной объектов и штатами как переменной групп.
Два типа задач прогнозирования в политике
Важный вывод исследования заключается в том, что специалисты обязаны заранее четко формулировать цель прогнозирования. Мы выделяем два основных класса задач прогнозирования в политике:
1. Поперечное прогнозирование: суть в сопоставлении результатов между объектами в один период. Например, заполнение пропусков в данных о ВВП на душу населения по регионам, где надежные измерения есть только для части территорий. Оптимальное разделение здесь — по объектам: разные объекты распределяются по обучающей и тестовой выборкам, сохраняя все временные периоды. Это исключает поперечную утечку, хотя временная остается. Однако поскольку прогнозирование во времени не требуется, это не критично.
2. Последовательное прогнозирование: цель — предсказание будущих результатов на основе исторических данных, например, оценка снижения доходов на уровне округов за год вперед для запуска timely вмешательств. Здесь правильное разделение — по времени: ранние периоды для обучения, поздние — для тестирования. Это предотвращает временную утечку, но не поперечную, которая в данном случае не актуальна, так как одни и те же объекты прогнозируются во времени.
Неправильный метод в обоих случаях — случайное разделение по объект-время (вариант A на иллюстрации), которое искажает результаты обоими типами утечки и дает завышенные показатели производительности.
Практические рекомендации
Для поддержки специалистов мы обобщили набор правил и запретов при использовании МО с панельными данными:
- Подбирайте разделение выборки в соответствии с исследовательским вопросом: по объектам для поперечных задач, по времени для прогнозирования.
- Временная утечка может возникать не только через наблюдения, но и через предикторы. Для прогнозирования применяйте только запаздывающие или неизменные во времени предикторы. Использование одновременных переменных (например, безработицы 2014 года для предсказания доходов 2014 года) методологически неверно и провоцирует временную утечку данных.
- Адаптируйте кросс-валидацию для панельных данных. Стандартная случайная k-fold кросс-валидация из большинства пакетов ПО неприемлема, поскольку смешивает будущее и прошлое. Вместо этого для прогнозирования используйте скользящие или расширяющиеся окна, а для поперечного прогнозирования — стратифицированную кросс-валидацию по объектам/группам.
- Проверяйте производительность вне выборки на действительно новых данных, не подвергавшихся обучению ранее.
Эмпирическое применение
Чтобы наглядно показать эти проблемы, мы проанализировали сбалансированную панель из 3058 округов США за период с 2000 по 2019 год, сосредоточившись исключительно на последовательном прогнозировании. Рассматривались две задачи: регрессия — предсказание дохода на душу населения — и классификация — оценка вероятности снижения дохода в следующем году.
Мы протестировали сотни моделей, варьируя стратегии разделения, использование одновременных предикторов, включение запаздывающих исходов и алгоритмы (случайный лес, XGBoost, логистическая регрессия и МНК). Такой всеобъемлющий подход позволил измерить, насколько утечка завышает производительность. Ниже приведены ключевые результаты.
Вариант A на иллюстрации демонстрирует производительность прогнозирования для задач классификации. Случайное разделение дает очень высокую точность, но это обманчиво: модель уже видела похожие данные на обучении.
Вариант B показывает производительность для задач регрессии. Снова случайное разделение делает модели значительно лучше, чем они есть на деле, в то время как правильное разделение по времени выявляет гораздо более низкую, но реалистичную точность.
В работе также демонстрируется, что переоценка точности модели усиливается в годы с изменениями распределений и структурными разрывами, такими как Великая рецессия, что делает результаты особенно вводящими в заблуждение для политических целей.
Почему это важно
Утечка данных — это не просто техническая ошибка; она несет реальные последствия. В политических приложениях модель, кажущаяся высокоэффективной на валидации, может провалиться при реальном использовании, приводя к неэффективному распределению ресурсов, пропуску кризисов или неверному нацеливанию. В бизнес-контексте аналогичная проблема может вызвать неудачные инвестиции, неоптимальную работу с клиентами или ложную уверенность в оценке рисков. Угроза особенно велика, когда модели МО служат системами раннего предупреждения, где чрезмерное доверие к завышенной производительности чревато дорогостоящими сбоями.
Напротив, правильно спроектированные модели, пусть и менее точные на бумаге, обеспечивают честные и надежные прогнозы, которые по-настоящему помогают в принятии решений.
Выводы
МО способно революционизировать принятие решений как в политике, так и в бизнесе, но только при правильном применении. Панельные данные предоставляют обширные возможности, однако особенно подвержены утечке данных. Чтобы получать достоверные выводы, специалисты должны согласовывать рабочий процесс МО с целью прогнозирования, учитывать как временную, так и поперечную структуры, и применять стратегии валидации, предотвращающие чрезмерный оптимизм и иллюзию высокой точности. Соблюдение этих принципов позволяет моделям избегать ловушки завышенной производительности и вместо этого давать ориентиры, которые реально помогают властям распределять ресурсы и компаниям принимать обоснованные стратегические шаги. Учитывая быстрое распространение МО с панельными данными в государственных и частных секторах, решение этих проблем становится срочной задачей для прикладных исследований.