Модели поиска vs предсказания: ключ для data scientists

Специалисты по данным упускают модели теории поиска, которые помогают анализировать платформенные рынки вроде Amazon или Upstart. Статья вводит экономическую теорию и применяет ее к кредитным платформам, показывая, как оптимизировать партнерства, ценообразование и рост. Это меняет подход от изолированных предсказаний к системному моделированию равновесий.

Специалисты по данным часто сосредотачиваются на разработке алгоритмов, причинно-следственных и прогностических моделей, а также систем рекомендаций, включая генеративный ИИ. Они стремятся к максимальной точности, настраивают гиперпараметры и ищут передовые модели для внедрения в производство. Однако в погоне за совершенной реализацией они упускают из виду категорию моделей, способную радикально изменить подход к формулировке бизнес-задач.

Вспомним успех платформенных компаний, таких как Amazon, Spotify, Netflix, Uber и Upstart. Несмотря на различия в отраслях, все они функционируют как посредники в рынках поиска и сопоставления между агентами спроса и предложения. Ценность этих компаний заключается в снижении затрат на поиск для клиентов за счет создания платформы и алгоритма сопоставления, который соединяет участников в условиях неопределенности и разнообразных предпочтений.

Основная проблема

В подобных рынках ключевые вопросы выходят за рамки типичных изолированных задач машинного обучения, вроде "как спрогнозировать спрос?" или "как реклама влияет на отток клиентов?". Вместо этого перед ними стоят более сложные вызовы:

Сколько поставщиков привлекать с учетом прогнозируемых паттернов спроса?
Как разработать механизмы сопоставления для достижения оптимального распределения?
Какие стратегии ценообразования обеспечат максимальный доход платформы, балансируя рост и удовлетворенность клиентов?
Как учитывать каскадные эффекты от изменений в одном элементе модели на всю систему?

Классические методы data science рассматривают эти аспекты как отдельные задачи оптимизации, выделяя для них независимые потоки работ. Тем временем экономисты с 1980-х годов изучают эти вопросы и создали единую теоретическую основу для описания взаимосвязей в динамике платформ, известную как модели теории поиска. Этот подход глубоко изучался в аспирантуре, но редко применяется в индустрии, поэтому стоит привлечь к нему внимание.

Почему это важно для специалистов по данным

Data science excels в измерениях и алгоритмах, но отстает в формулировке проблем, которую обычно оставляют менеджерам и руководителям. Знание этих теоретических основ помогает определять релевантные метрики и подходящие алгоритмы. Вместо изолированных прогностических моделей можно проектировать интегрированные системы, учитывающие эффекты равновесия, стратегическое поведение и петли обратной связи. Такой взгляд позволяет выбирать правильные эксперименты, понимать моменты сбоя моделей (сдвиг когорт) из-за эволюции предпочтений агентов и разрабатывать вмешательства с прямым влиянием на равновесные результаты.

В этой статье мы разберем теорию моделей поиска и покажем их применение на примере платформы кредитования (Upstart, LendingClub, Prosper), где заемщики соединяются с банками. Мы рассмотрим, как эта основа помогает в стратегиях привлечения партнеров, механизмах ценообразования и рычагах роста. Читатели могут перейти к следующему разделу за кратким обзором истории этих моделей или сразу к примеру для понимания их конструкции.

Экономическая литература

Эта модельная рамка возникла в экономике 1980-х, когда Дейл Мортенсен, Кристофер Писсаридес и Питер Даймонд пытались объяснить существование безработицы при наличии вакансий. Их исследования принесли Нобелевскую премию в 2010 году. Модель Даймонда-Мортенсена-Писсаридеса преобразила взгляд на рынки. Главный вывод: поиск работы (или найм) требует времени и средств, создавая трения в конкурентных рынках. В 1982 году Даймонд продемонстрировал, что при затратных поисках зарплаты не определяются агрегатным спросом и предложением, а формируются в двусторонних переговорах между работником и фирмой с использованием равновесия Нэша. Зарплата зависит от силы сторон и альтернативных вариантов. Если одна сторона имеет лучшие опции, она получает большую долю от ценности совпадения.

Мортенсен развил идею, показав, что затраты на поиск формируют пул безработных даже в процветающей экономике. Работники устанавливают "резервную зарплату" – минимум, основанный на ожиданиях от дальнейшего поиска. Фирмы взвешивают расходы на открытую вакансию против ожидаемой ценности сотрудника. Писсаридес связал индивидуальные переговоры с макроэкономическими циклами, объяснив связь безработицы и создания рабочих мест с бизнес-циклами.

В 2005 году Даффи, Гарлеану и Педерсен применили эти идеи к финансовым рынкам. В внебиржевых рынках покупатели и продавцы ищут друг друга, подобно работникам и фирмам. Этот процесс объясняет спреды bid-ask и вариации цен на активы. Продавец с срочной нуждой в ликвидности может принять низкую цену, в то время как терпеливый ждет лучшего предложения. Лагос и Рошето расслабили ограничения на бинарные активы, введя переменные портфели и показав влияние монетарной политики на децентрализованные рынки.

Третий элемент – экономика платформ. Платформы создают рынки, требующие обеих сторон: водителей и пассажиров в райдшеринге, заемщиков и банков в кредитовании. Исследования двухсторонних рынков показывают, как платформы максимизируют доход через ценообразование и контроль размеров групп. Они устанавливают цены для удержания участников (ограничение совместимости стимулов) и выгоды от транзакций (ограничение индивидуальной рациональности). Платформы также управляют мультирынками (книги и электроника на Amazon), где спилловеры из одного сегмента влияют на другой.

Эти три направления исследований объединяются для анализа современных цифровых платформ. Ниже приведен практический пример, иллюстрирующий, как эти концепции интегрируются в теоретическую модель для понимания оптимального поведения кредитной платформы.

Практический пример: платформы кредитования

Применяя эту рамку к платформам вроде Upstart, LendingClub и Prosper, которые используют ИИ для андеррайтинга кредитов и соединения банков с капиталом и потребителями, нуждающимися в займах. Они выступают как рынки, где партнерские банки предлагают типы кредитов (личные, авто, ипотека), а потребители подают заявки. Платформы зарабатывают на комиссиях за origination, сервисные сборы и штрафы за просрочку, снижая затраты на поиск: банки не ищут заемщиков, а потребители не сравнивают банки. С позиции платформы возникают ключевые экономические вызовы:

Прогнозирование спроса: Сколько заявок на кредиты ожидать в следующем квартале?
Управление предложением: Сколько партнерских банков нужно для покрытия спроса?
Дизайн конкуренции: Как стимулировать банки конкурировать за заемщиков без отпугивания?
Механизм сопоставления: Использовать аукционы, фиксированные цены или алгоритмическое матчинг?
Оценка рисков: Как моделировать аппетит к риску банков и вероятность дефолта заемщиков?
Сегментация рынка: Есть ли спилловеры между сегментами кредитования?

Ни один из этих вопросов не решается просто, каждый включает множество факторов. Прогноз спроса на кредиты может использовать временные ряды, но агрегат нужно разбивать по типу, сумме и сроку, поскольку банки различаются в предпочтениях. Малые банки с ограниченным капиталом фокусируются на краткосрочных кредитах для высококредитных заемщиков, крупные – на долгосрочных для рискованных, если капитал избыточен. Алгоритм сопоставления учитывает эти предпочтения, обеспечивая ценность (избыток торговли) для обеих сторон.

В этой рамке каждый кредит – трехсторонние переговоры между заемщиком, банком и платформой. Заемщик может отвергнуть предложение, банк устанавливает резервную ставку, платформа распределяет избыток торговли. Платформа контролирует ставки и комиссии, влияя на участие. Высокие ставки отпугивают заемщиков, снижая adoption и повышая отток; низкие – уменьшают удовлетворенность партнеров. Каждое решение меняет равновесие, понимание динамики критично для роста.

Среда модели

Построим простейшую модель для анализа динамики. Начнем с упрощающих предположений для математической трактуемости, формируя среду. Она включает один тип кредита на один период, идентичных заемщиков и банки.

Среда в дискретном времени $t \in \mathcal{T}$, без дисконтирования между периодами. Есть кредит размером $S$ со ставкой $r$, где $r$ – эндогенная переменная (определяется внутри системы).

Заемщики прибывают по пуассоновскому процессу с интенсивностью $\Lambda$. Они требуют кредит $S$, ценя его в $V(S)$. Их полезность линейна: $U_L = V(S) – (1+r)S$, то есть ценность минус платеж. Сток несопоставленных заемщиков – $L_t$. Каждый заемщик имеет вероятность погашения $p$. При предложении они принимают или отвергают; отвергнув, уходят с платформы. Заемщики предполагают погашение.

С банковской стороны – набор банков $i \in \mathcal{J}$, с максимальной емкостью $K$ и стоимостью origination $c$. Каждый кредит $S$ на срок $T=1$ (успешный origination снижает капитал на $S$ на период). Цель – максимизировать прибыль, устанавливая минимальную ставку; без прибыли уходят.

Платформа имеет технологию сопоставления $M(B,L)$ для банков и заемщиков. Она наблюдает все параметры агентов, определяет $r$ для заемщика и $f$ для банка, максимизируя доход. Платформа выбирает число банков $B$. При матче случайный банк получает предложение: $ \{ S, r, f \} $, совместимое с стимулами.

Для этого используем стандартную технологию Cobb-Douglas (как в производственных функциях литературы), дающую агрегатный матчинг:

$$ M(B,L) = \alpha B^\beta L^{1-\beta}$$

В каждый период ожидаемая скорость матчинга на банк – $ \phi \equiv \frac{M(B,L)}{B} = \alpha B^{\beta-1} L^{1-\beta}$. При случайном матчинге скорость одинакова $\phi$.

Это завершает настройку среды модели, содержащей информацию для нахождения равновесия всех параметров.

Поиск равновесия

Цель раздела – решить все интересующие исходы модели. Для равновесия решаем эндогенные переменные: $r$, $f$, $B$. Нет фиксированного порядка, но сначала участие агентов, затем матчинг, потом торг.

В полной информации все принимают оптимально. Ожидаемая прибыль банка на кредит:

$$\pi = p(1+r)S – (1+c)S – f$$

Первое – вероятность погашения умноженная на прибыль при погашении. Второе – стоимость origination (банки берут средства с баланса/депозитов по $c$). Третье – комиссия платформе. В реальности учитывают долгосрочные кредиты ($T>1$), сборы при дефолте и другие факторы.

После прибыли на кредит определяем объем origination. Для стационарного стока несопоставленных заемщиков приток равен матчам (все принимают при матче). Таким образом, $\Lambda = M(B,L)$:

$$ \Lambda = M(B,L) = \alpha B^\beta L^{1-\beta}$$

Решая для $L$, получаем $L = \Big[ \frac{\Lambda}{\alpha B^\beta} \Big]^\frac{1}{1-\beta}$. Ожидаемая скорость прибытия кредитов для заемщика – $M / L$. По конструкции $M = \Lambda$, скорость для банка $\phi = \frac{\Lambda}{B}$.

Поскольку каждый кредит занимает часть $K$, максимум кредитов $l$ на банк: $S \cdot \phi \leq K$. Таким образом, $l^* = \min\{ \frac{\Lambda}{B}, \frac{K}{S} \}$. Если связывает $\frac{K}{S}$, платформе нужно больше банков, так как предложение ограничено. Без свободного входа платформа контролирует $B$ для неограниченного равновесия: $l^* = \frac{\Lambda}{B}$.

Теперь прибыль банка в единицу времени:

$$ \Pi_B = \frac{\pi \Lambda}{B} = \frac{\Lambda(p(1+r)S – (1+c)S – f)}{B}$$

Увеличение $B$ снижает прибыль на банк, уменьшая кредиты. Платформа, контролируя $f$ и $B$, выбирает между малым числом банков с высокой прибылью (риск ограничений) или ростом за счет большего $B$ или меньшего $r$ для заемщиков. Это устанавливает верхнюю границу комиссии: $\bar{f} = p(1+r)S – (1+c)S$, так как отрицательная прибыль невозможна.

Повышение $r$ позволяет выше $f$ и больше доход. Но в реальности это может замедлить приток заемщиков. Здесь $\Lambda$ экзогенно, но можно сделать $\Lambda = f(f, r, B)$, условно. Банки устанавливают резервную ставку $\underline{r}$:

$$ \underline{r} = \frac{f + (1+c)S}{p S} – 1$$

Снижение $f$ позволяет ниже $\underline{r}$, повышая избыток заемщиков. Аналогично при росте $p$ или падении $c$.

Переговоры

Опишем поведение при матче и параметры платформы. При матче платформа предлагает take-it-or-leave-it, заемщик принимает или отвергает (выход без опций). Платформа выбирает $\{ r,f \}$ для удовлетворения ограничений при $\{ \underline{r},\bar{f} \}$. Из линейной полезности заемщик принимает при $U_L \geq 0$, верхняя граница $r$:

$$\bar{r} = \frac{V(S)}{S} -1 $$

С границами для $r$ и $f$ формулируем задачу платформы: выбрать параметры для стимулов агентов, максимизируя доход:

$$ \Pi_p = \max_{r, f, B} f M(B,L) \\ s.t. \;\; \Pi_B \geq 0 \\ \;\; U_L \geq 0 $$

Платформа решает $r$, $f$, $B$ для максимума комиссий и матчей. Аналитическое решение возможно в замкнутой форме или численно через grid-search/оптимизацию. Решение оставляем читателям.

Для завершения определяем равновесие как стационарное решение.

Значение для бизнеса

Модель дает ключевые инсайты для стратегии платформ:

1. Выбор B: Большее число партнеров повышает избыток заемщиков через ускорение матчинга, снижая сток несопоставленных. Поскольку отвергнутые уходят, это не давит на ставки. Но если заемщики возвращаются, их опция растет, снижая силу банков и $\bar{r}$. Однако рост $B$ уменьшает прибыль на банк, снижая $\bar{f}$ и доход платформы.

1. Выбор r: Оптимальное $r$ зависит от распределения избытка. В простой модели $r = \bar{r}$, удовлетворяя только участие заемщиков без входных условий. Рост $r$ позволяет извлекать больше через $f$. В сложной, с корреляцией притока и избытка, сдвиг к заемщикам ускоряет матчинг, повышая доход. При неполной информации оптимальное $r$ на основе $\mathbb{E}[V(S)]$ по распределению; с гетерогенностью $\theta$ – условное $\mathbb{E}[V(S) | \theta ]$; при неизвестности – ML-оценка $\hat{\theta}$.

1. Выбор f: $f$ распределяет избыток между банком и платформой. Выше $f$ – больше доход, меньше для банков. В реальности банки выбирают платформы по ожидаемой прибыли, так оптимально делить избыток для привлечения партнеров.

Заключительные замечания и расширения

Что мы еще не учли

Эта базовая модель лишь вводит в динамику платформ. Реальные платформы сталкиваются с сложностями, игнорируемыми для простоты. Например, заемщики не уходят после отказа, а остаются или переходят к конкурентам. Банки и заемщики гетерогенны: банки в аппетите к риску, капитале, предпочтениях сроков; заемщики в наблюдаемых/латентных чертах, влияющих на $p$, $V(S)$, размер. Гетерогенность меняет матчинг с случайного на сортированный, где платформа решает пары, подчеркивая ее ценность.

Игнорирована асимметрия информации. Банки не полностью видят риск дефолта, заемщики – свою кредитоспособность, платформы – опции сторон. Это порождает сигнализацию (заемщики кажутся надежными), скрининг (банки дифференцируют ставки по типам) и дизайн механизмов. Показывать ли все ставки или лучший матч? Раскрывать ли кредитный скоринг или только оценку платформы? Может ли избыточная информация ухудшить матчи?

Расширения для углубления понимания

Для операционализации рамки возможны расширения:

Динамика входа и выхода: Как условия влияют на участие. Рост ставок отпугивает/привлекает заемщиков; банки адаптируют риск и капитал под регуляции. ML прогнозирует потоки для корректировки $f/r$.
Конкуренция платформ: При поиске на Upstart, LendingClub, Prosper меняется сила и рост. Объясняет фокус на скорости или ставках. Анализ ниш помогает захватить спрос.
Репутация и обучение: Стороны строят историю на платформе. Конкурентные банки привлекают больше; погашения улучшают профили. Рост данных повышает эффективность сортировки, помогая в LTV и балансе acquisition/retention.
Дизайн механизмов: Вместо take-it-or-leave-it и рандома – аукционы (банки бидят) или posted prices. Каждый влияет на эффективность, доход, толщину рынка; выбор под регуляции и распределения.

От построения моделей к моделированию проблем

Рамка дает стратегическое преимущество, фокусируя на первом и втором порядке эффектов. Data scientists оптимизируют метрики изолированно (дефолты, конверсия, отток), но в рынках каждое меняет равновесие. Ниже дефолты – ниже резерв банка, больше избытка для платформы. При гетерогенности выше матчинг привлекает худших, снижая качество.

Рамка выделяет ключевые метрики. Платформа может принимать убыточные кредиты (loss leaders) для удержания банков или спилловеров. Ограничивать вход заемщиков даже при загруженных банках. Это побуждает data scientists от измерений к большому взгляду.

Победители – не с 98% точностью предсказания, а понимающие динамику рынков. Рамка сдвигает фокус от лучших моделей к правильным проблемам.

Модели предсказания против моделей поиска: упущения data scientists