LLM не для всех бизнес-задач: альтернативы

Компании активно внедряют большие языковые модели, но нередко применяют их для задач, где они не проявляют себя оптимально. Согласно недавнему исследованию Массачусетского технологического института, 95% пилотных проектов по генеративному ИИ заканчиваются неудачей, не принося никакой отдачи.

В вихре внимания к генеративному ИИ часто упускается из виду сфера структурированных данных — как с точки зрения внедрения, так и с технологической стороны. На самом деле, в структурированных данных скрыт огромный потенциал ценности, особенно в области прогнозирования.

В этой статье рассматриваются возможности и ограничения больших языковых моделей, ценность, которую можно извлечь из ИИ при работе со структурированными данными, в частности для моделирования предсказаний, а также подходы, используемые в отрасли сегодня, включая один из разработанных командой специалистов.

Почему большие языковые модели не подходят для бизнес-данных и процессов

Хотя большие языковые модели радикально изменили обработку текста и коммуникации, они уступают в прогнозировании на основе структурированных реляционных данных, которые определяют ключевые бизнес-результаты — управление жизненным циклом клиентов, оптимизацию продаж, рекламу и маркетинг, рекомендации, обнаружение мошенничества и оптимизацию цепочек поставок.

Бизнес-данные, на которых опираются предприятия, по своей природе структурированы. Они обычно хранятся в таблицах, базах данных и рабочих процессах, где смысл извлекается из связей между сущностями, такими как клиенты, транзакции и цепочки поставок. Иными словами, это реляционные данные.

Большие языковые модели захватили мир и сыграли важную роль в развитии ИИ. Однако они предназначены для работы с неструктурированными данными и не адаптированы естественным образом для анализа строк, столбцов или соединений. В итоге они с трудом улавливают глубину и сложность реляционных данных. Дополнительная проблема заключается в том, что реляционные данные обновляются в реальном времени, в то время как модели обучаются на статических снимках текста. Кроме того, числа и количества трактуются ими как токены в последовательности, а не как математические величины, которые они "понимают". На практике это означает, что модель оптимизирована для предсказания следующего наиболее вероятного токена, что она делает превосходно, но не для проверки правильности вычислений. Таким образом, будь то вывод 3 или 200 при истинном ответе 2, модель получает одинаковое наказание.

Большие языковые модели способны к многошаговому рассуждению через инференс на основе цепочки мыслей, но могут сталкиваться с проблемами надежности в отдельных сценариях. Поскольку они склонны к галлюцинациям — и делают это уверенно, — даже небольшая вероятность ошибки в многошаговом процессе может накапливаться по этапам. Это снижает общую вероятность верного результата, а в бизнес-процессах, таких как одобрение кредитов или прогнозирование дефицита поставок, малейшая оплошность способна привести к серьезным последствиям.

Из-за этих факторов предприятия по-прежнему полагаются на традиционные конвейеры машинного обучения, создание и поддержка которых занимает месяцы, что ограничивает измеримое влияние ИИ на доходы. Применение ИИ к табличным данным по сути возвращает нас на тридцать лет назад, требуя от людей кропотливого создания признаков и построения специализированных моделей с нуля. И это для каждой отдельной задачи! Такой метод медленный, затратный, не масштабируемый, а обслуживание моделей превращается в настоящий кошмар.

Как создали реляционную базовую модель

Карьера специалистов в области ИИ и машинного обучения над графоструктурированными данными подчеркивает, что отдельные точки данных не существуют изолированно. Они являются частью графа, связанного с другими фрагментами знаний. Этот подход применялся в исследованиях онлайн-социальных сетей и распространения информации, с использованием данных из Facebook, Twitter, LinkedIn, Reddit и других платформ.

Это понимание способствовало пионерству графовых нейронных сетей в Стэнфордском университете — фреймворка, позволяющего машинам обучаться на связях между сущностями, а не только на самих сущностях. Такой метод реализовывался на позиции главного ученого в Pinterest, где алгоритм PinSage преобразил пользовательский опыт платформы. Позже это эволюционировало в графовые трансформеры, которые переносят возможности архитектуры трансформеров на графоструктурированные данные. Благодаря этому модели могут захватывать как локальные связи, так и дальнодействующие зависимости в сложных сетях.

По мере развития исследований компьютерное зрение претерпело изменения благодаря сверточным сетям, а обработка языка — благодаря большим языковым моделям. Однако предсказания, от которых зависят бизнесы в структурированных реляционных данных, все еще ждали прорыва, ограниченные техниками машинного обучения, не эволюционировавшими более двадцати лет!

Итогом этих исследований и предвидения стала разработка первой реляционной базовой модели (RFM) для бизнес-данных. Ее цель — позволить машинам рассуждать непосредственно над структурированными данными, понимая связи между сущностями, такими как клиенты, транзакции и продукты. Зная эти отношения, пользователи могут выполнять точные предсказания на основе конкретных связей и паттернов.

Ключевые возможности реляционных базовых моделей

В отличие от больших языковых моделей, реляционные базовые модели предназначены для структурированных реляционных данных. Они предварительно обучаются на ряде синтетических наборов данных, а также на задачах над структурированными бизнес-данными. Подобно большим языковым моделям, реляционные базовые модели можно просто промптировать для мгновенных ответов на разнообразные предсказательные задачи над заданной базой данных, без специального обучения для задач или баз.

Целью было создание системы, которая обучается напрямую из структуры реальных баз данных, без обычных ручных настроек. Для этого каждая база данных трактуется как граф: таблицы превращаются в типы узлов, строки — в узлы, а внешние ключи связывают все воедино. Таким образом, модель может "видеть", как связаны и эволюционируют во времени элементы вроде клиентов, транзакций и продуктов.

В основе модели лежит комбинация энкодера столбцов и реляционного графового трансформера. Каждая ячейка таблицы преобразуется в небольшое числовое вложение на основе типа данных — числа, категории или временной метки. Трансформер затем анализирует граф, извлекая контекст из связанных таблиц, что помогает модели адаптироваться к новым схемам баз и типам данных.

Для ввода желаемых предсказаний разработан простой интерфейс под названием Predictive Query Language (PQL). Он позволяет описывать, что нужно предсказать, а модель берет на себя остальное: извлекает подходящие данные, учится на прошлых примерах и рассуждает до ответа. Благодаря обучению в контексте, не требуется переобучение для каждой задачи! Опция тонкой настройки доступна для очень специализированных случаев.

Это лишь один из подходов. В отрасли исследуются и другие стратегии:

Подходы в отрасли

1. Внутренние базовые модели

Компании вроде Netflix создают собственные крупномасштабные базовые модели для рекомендаций. Как указано в их блоге, цель — перейти от десятков специализированных моделей к единой централизованной, которая изучает предпочтения пользователей по всей платформе. Аналогия с большими языковыми моделями очевидна: как предложение представлено последовательностью слов, так пользователь — последовательностью взаимодействовавших фильмов. Это позволяет внедрять инновации для долгосрочной персонализации, обрабатывая огромные истории взаимодействий.

Преимущества владения такой моделью включают контроль, дифференциацию и возможность адаптировать архитектуры под нужды домена (например, разреженное внимание для снижения задержек, вложения на основе метаданных для холодного старта). С другой стороны, такие модели чрезвычайно дороги в обучении и поддержке, требуя огромных объемов данных, вычислительных ресурсов и инженерных усилий. Более того, они обучаются на одном наборе данных (например, поведение пользователей Netflix) для одной задачи (например, рекомендации).

2. Автоматизация разработки моделей с помощью AutoML или агентов по науке о данных

Платформы вроде DataRobot и SageMaker Autopilot продвигают автоматизацию частей конвейера машинного обучения. Они ускоряют работу команд, беря на себя этапы вроде создания признаков, выбора модели и обучения. Это упрощает эксперименты, уменьшает рутину и расширяет доступ к машинному обучению за пределы узких специалистов. В похожем направлении появляются агенты по науке о данных, где агент выполняет классические шаги и итеративно их улучшает: очистка данных, создание признаков, построение модели, оценка и разработка. Хотя это инновационный шаг, эффективность подхода в долгосрочной перспективе еще под вопросом.

3. Использование графовых баз данных для связанных данных

Компании вроде Neo4j и TigerGraph развивают применение графовых баз данных для лучшего захвата связей между точками данных. Это особенно полезно в сферах вроде обнаружения мошенничества, кибербезопасности и управления цепочками поставок, где отношения между сущностями важнее самих сущностей. Моделируя данные как сети, а не изолированные строки в таблицах, графовые системы открывают новые пути для анализа сложных реальных проблем.

Уроки, извлеченные из опыта

При создании технологии целью было разработать архитектуры нейронных сетей, способные обучаться напрямую из сырых данных. Этот подход отражает текущую революцию в ИИ, где нейронные сети учатся из пикселей изображений или слов в документах.

На практике видение продукта подразумевало простое подключение к данным и выполнение предсказания. Это привело к амбициозной задаче создания предварительно обученной базовой модели для бизнес-данных с нуля (как описано выше), устраняя необходимость ручного создания признаков, обучающих наборов и моделей под конкретные задачи. Действительно амбициозно.

В процессе построения реляционной базовой модели были разработаны новые архитектуры трансформеров, которые фокусируются на множестве взаимосвязанных таблиц, схеме базы данных. Это потребовало расширения классического механизма внимания в больших языковых моделях, ориентированного на линейную последовательность токенов, до механизма, работающего с графом данных. Ключевым было обеспечение обобщения внимания на разные структуры баз данных, а также на таблицы разной ширины или узости, с разнообразными типами столбцов и их значениями.

Другой вызов заключался в создании новой схемы обучения, поскольку предсказание следующего токена не подходит как цель. Вместо этого были сгенерированы многочисленные синтетические базы данных и предсказательные задачи, имитирующие вызовы вроде обнаружения мошенничества, прогнозирования временных рядов, оптимизации цепочек поставок, профилирования рисков, скоринга кредитов, персонализированных рекомендаций, предсказания оттока клиентов и оценки лидов продаж.

В итоге получилась предварительно обученная реляционная базовая модель, которую можно промптировать для решения бизнес-задач — будь то финансовое или страховое мошенничество, медицинский или кредитный скоринг рисков.

Заключение

Машинное обучение остается неотъемлемой частью будущего, и по мере эволюции области специалисты по данным обязаны стимулировать более осмысленный и откровенный диалог о реальных возможностях технологий — их сильных и слабых сторонах.

Все знают, насколько трансформационными были большие языковые модели и продолжают быть, но слишком часто их внедряют поспешно, не учитывая внутренние цели или нужды. Как технологи, мы должны побуждать руководителей внимательнее присмотреться к своим проприетарным данным, которые составляют уникальность компании, и тщательно определить, какие технологии лучше всего используют эти данные для продвижения бизнес-целей.

В статье рассмотрены возможности больших языковых моделей, ценность структурированных данных, часто игнорируемой стороны, и отраслевые решения для применения ИИ над такими данными — включая собственное решение и уроки из его создания.

Почему LLM не универсальное решение для бизнеса

Почему большие языковые модели не подходят для бизнес-данных и процессов

Как создали реляционную базовую модель

Подходы в отрасли

1. Внутренние базовые модели

2. Автоматизация разработки моделей с помощью AutoML или агентов по науке о данных

3. Использование графовых баз данных для связанных данных

Уроки, извлеченные из опыта

Заключение

Горячее

Как ИИ модели думают: новое исследование

Самые актуальные AI-носители и гаджеты для покупки

Nano Banana Pro от Google меняет ИИ-арт

Обзор Abacus AI: ChatLLM и DeepAgent

White-Box-Coder: ИИ с самопроверкой кода

Сейчас в тренде