На конференции Microsoft Ignite 2025 представили базу данных, готовую к работе с ИИ, благодаря анонсу Microsoft SQL Server 2025. Разработчики получили новые инструменты, такие как встроенный векторный поиск и нативные SQL API для вызова внешних моделей ИИ. NVIDIA сотрудничает с Microsoft, чтобы интегрировать SQL Server 2025 с коллекцией открытых моделей NVIDIA Nemotron RAG. Это позволяет создавать быстрые и защищенные приложения ИИ на основе данных в облаке или локально.
Генерация с дополнением поиском (RAG) — лучший способ для компаний использовать свои данные. Такой подход позволяет ИИ опираться на актуальные внутренние данные, избегая огромных затрат и сложностей с переобучением модели с нуля. Однако эффективность RAG зависит от ресурсоемких этапов, включая создание векторных представлений. Это приводит к серьезным проблемам с производительностью на обычных CPU.
Проблемы усугубляются сложностью развертывания в большом масштабе и необходимостью гибкости моделей. Компаниям нужен набор моделей для векторизации, чтобы балансировать точность, скорость и стоимость в разных задачах.
Эта статья описывает новую референсную архитектуру от NVIDIA, которая решает эти задачи. Она основана на SQL Server 2025 и модели Llama Nemotron Embed 1B v2 из семейства Nemotron RAG. Интеграция позволяет вызывать модель Nemotron RAG прямо из базы SQL Server, превращая ее в мощный движок для приложений ИИ. Реализация работает на Azure Cloud и Azure Local, охватывая основные сценарии использования SQL Server в облаке или локально.
Решение задач RAG для корпоративного ИИ с Nemotron RAG и SQL Server 2025
Соединение SQL Server 2025 с гибким и ускоренным движком ИИ от NVIDIA через Nemotron RAG устраняет ключевые проблемы корпоративного RAG: производительность, развертывание, гибкость и безопасность.
Устранение узких мест в производительности RAG
Архитектура решает главную проблему RAG, перенося создание векторных представлений с CPU на GPU NVIDIA с помощью Llama Nemotron Embed 1B v2. Это современная открытая модель для точных векторных представлений, оптимизированная под задачи поиска. Она поддерживает многоязычный и кросс-лингвальный поиск ответов на вопросы в тексте с длинным контекстом и эффективным хранением данных.
Llama Nemotron Embed 1B v2 входит в Nemotron RAG — коллекцию моделей для извлечения, векторизации и переранжирования, дообученных на датасетах и скриптах Nemotron RAG для максимальной точности.
В базе данных SQL Server 2025 обеспечивает быстрый поиск данных с векторным поиском через нативные функции расстояния векторов. При локальном размещении моделей исключается сетевой overhead, что снижает задержки и повышает производительность.
Развертывание моделей ИИ как простых контейнеризованных конечных точек
Для развертывания подходят микросервисы NVIDIA NIM. Это готовые к производству контейнеры, которые упрощают запуск оптимизированных моделей ИИ, таких как NVIDIA Nemotron RAG, на любой инфраструктуре с ускорением NVIDIA — в облаке или локально. С NIM модели ИИ разворачиваются как простые контейнеризованные конечные точки без управления сложными библиотеками или зависимостями.
Локальное размещение моделей через NIM решает вопросы с хранением данных и соответствием нормам. Простота использования — еще одно преимущество. Готовые NIM в сочетании с нативными SQL REST API снижают порог входа, позволяя приближать ИИ к существующим данным.
Сохранение безопасности и гибкости
Архитектура предлагает набор современных моделей Nemotron RAG, при этом внутренние данные остаются защищенными в базе SQL Server. Микросервисы NIM созданы с учетом требований enterprise-безопасности и поддерживаются NVIDIA. Все взаимодействия между NIM и SQL Server защищены сквозным HTTPS-шифрованием.
Референсная архитектура Nemotron RAG и Microsoft SQL Server 2025
Референсная архитектура Nemotron RAG и SQL Server 2025 описывает реализацию решения с моделью векторизации Llama Nemotron Embed 1B v2 в виде микросервиса NIM. Это обеспечивает корпоративные, защищенные и ускоренные GPU RAG-воркфлоу прямо из SQL Server на Azure Cloud или Azure Local.
Полный код, скрипты развертывания и подробные инструкции доступны в NVIDIA NIM with SQL Server 2025 AI on Azure Cloud and Azure Local.
Основные компоненты архитектуры
На рисунке 1 показаны три ключевых компонента архитектуры и базовый поток данных, описанные ниже.

SQL Server 2025: база данных, готовая к ИИ
Основа решения — SQL Server 2025 с двумя ключевыми возможностями, которые служат двигателем ИИ внутри базы:
- Нативный тип данных vector: Позволяет хранить векторные представления прямо рядом со структурированными данными безопасно. Это избавляет от отдельной векторной базы, упрощает архитектуру, минимизирует перемещение данных и поддерживает гибридный поиск, например, поиск товаров вроде «кроссовки для бега» (векторный поиск) и «в наличии» (структурный фильтр).
- Поиск по расстоянию векторов: Теперь можно выполнять поиск по схожести прямо в SQL Server 2025 с помощью встроенных функций. Это позволяет ранжировать результаты по близости в пространстве представлений для сценариев вроде семантического поиска, систем рекомендаций и персонализации — все без выхода из базы.
- Create external model: Регистрация и управление внешними моделями ИИ (например, микросервисами NIM) как полноценными объектами в SQL Server 2025. Это обеспечивает плавную координацию инференса с централизованным контролем безопасности и управления.
- Generate embeddings: Функция AI_GENERATE_EMBEDDINGS создает представления для текста или других данных прямо из T-SQL. Она использует вызовы внешних REST API, позволяя генерировать представления в реальном времени без сложной интеграции.
Микросервисы NVIDIA NIM: ускоренный движок ИИ
Семейство открытых моделей Nemotron RAG, включая Llama Nemotron Embed 1B v2 для этой архитектуры, поставляется как готовые к производству микросервисы NVIDIA NIM в стандартных Docker-контейнерах.
Такой подход упрощает развертывание и обеспечивает совместимость в облаке и локально на Windows или Linux с GPU NVIDIA. Модели размещаются на Azure Container Apps или локально с Azure Local. Контейнеризация поддерживает автоматическое и ручное масштабирование, обеспечивая гибкость от локального до облачного использования с SQL Server 2025.
- Масштаб в облаке: Развертывание NIM на ACA с serverless GPU NVIDIA. Это скрывает управление инфраструктурой, предоставляя инференс по требованию с ускорением GPU, масштабированием до нуля и оплатой по секундам, что оптимизирует затраты и операции.
- Локально: Для полного контроля данных и минимальных задержек NIM-контейнер запускается локально на Azure Local с GPU NVIDIA. Azure Local переносит управление Azure на собственное оборудование, позволяя запускать ИИ на локальных данных с учетом строгих требований к соответствию и производительности.
Связь между SQL Server и микросервисами NIM
Мост коммуникации между SQL Server и микросервисом NIM прост и надежен, основан на стандартных защищенных веб-протоколах.
- API, совместимый с OpenAI: NIM предоставляет конечную точку API, совместимую с OpenAI. SQL Server 2025 использует нативные функции для вызова NIM так же, как OpenAI, обеспечивая интеграцию без доработок.
- Стандартные POST-запросы: SQL Server 2025 отправляет стандартные HTTPS POST-запросы для получения результатов, таких как представления.
- Защищенная и гибкая коммуникация: Дизайн использует TLS-сертификаты для сквозного шифрования, устанавливая взаимное доверие и обеспечивая безопасность, производительность и соответствие стандартам в облаке и локально. Это преимущество перед удаленными моделями: полный контроль, данные не покидают защищенную среду.
Хотя архитектура использует современные модели Nemotron RAG, ее можно расширить для вызова любых микросервисов NIM из SQL Server 2025 для задач вроде суммаризации текста, классификации контента или предиктивного анализа — все на данных в SQL Server 2025.
Два способа развертывания
Статья охватывает два основных паттерна развертывания: локальный (с Azure Local) и облачный (с Azure Container Apps). Оба используют один механизм: вызов конечной точки NVIDIA NIM из SQL Server 2025 по протоколу, совместимому с OpenAI.
Локальная реализация с Azure Local
Локальная реализация дает максимальную гибкость, поддерживая комбинации Windows и Linux на серверах с GPU NVIDIA, такие как:
- Windows/Ubuntu Server или виртуальная машина Windows/Ubuntu локально с SQL Server и NVIDIA NIM.
- Windows с SQL Server и Ubuntu с NVIDIA NIM или наоборот.
Для развертывания используйте Azure Local — новое предложение Microsoft, расширяющее платформу Azure Cloud на локальные среды. Полные инструкции по установке безопасной коммуникации, включая детали NIM, в NVIDIA/GenerativeAIExamples на GitHub. Решение проверено на SQL Server 2025 (RC 17.0.950.3).
Облачная реализация
Облачное развертывание использует Llama Nemotron Embedding NIM от NVIDIA на Azure Container Apps (ACA) — полностью управляемой serverless-платформе контейнеров Microsoft Azure. ACA усиливает преимущества архитектуры. Подробнее в NVIDIA NIM with Microsoft SQL Server 2025 AI on Azure Cloud and Azure Local на GitHub NVIDIA/GenerativeAIExamples.
Serverless-подход дает преимущества для приложений ИИ с данными в SQL Server 2025.
Для ускорения запуска реплик NIM рекомендуется использовать тома ACA на базе Azure File Share или эфемерного хранилища для кэша NIM. Количество реплик управляется автоматически через HTTP-шкалирование ACA, с возможностью снижения до нуля.
Приложения ACA могут хостить несколько версий и типов NIM параллельно, доступных по разным URL, настроенным в SQL Server.
Демонстрация решения
Полные инструкции по запуску полного воркфлоу в демо SQL Server 2025 AI functionality with NVIDIA Retrieval QA using E5 Embedding v5.
Скрипты демо SQL проводят через шаги:
- Создание образца базы AdventureWorks.
- Создание таблицы ProductDescriptionEmbeddings для демо.
- Выполнение скриптов для заполнения представлений через интеграцию NVIDIA NIM.
- Проверка и визуализация хранимых представлений с помощью
Select_Embeddings.sql.
Воркфлоу демонстрирует новые возможности ИИ в SQL Server 2025 с T-SQL функциями VECTOR_DISTANCE, AI_GENERATE_EMBEDDINGS и CREATE EXTERNAL MODEL, которые лежат в основе новой интеграции ИИ.
Начало работы с SQL Server 2025 и NVIDIA Nemotron RAG
Интеграция Microsoft SQL Server 2025 с NVIDIA Nemotron RAG в микросервисах NVIDIA NIM обеспечивает плавный путь от локального до облачного для создания быстрых приложений ИИ. Комбинация встроенных возможностей ИИ SQL Server 2025 с оптимизированным стеком инференса на GPU NVIDIA устраняет основную проблему RAG, приближая ИИ к данным безопасно и эффективно без сложных пайплайнов.
Совместная референсная архитектура показывает, как строить RAG-приложения для генерации представлений, семантического поиска и вызова инференса прямо в SQL Server 2025. Это дает гибкость размещения современных моделей вроде NVIDIA Nemotron там, где живут данные — на Azure Cloud или локально с Azure Local — с полным контролем над данными.
Скрипты развертывания, примеры кода и инструкции для облака и локали в NVIDIA NIM with Microsoft SQL Server 2025 AI on Azure Cloud and Azure Local на GitHub NVIDIA/GenerativeAIExamples.