На конференции Google Cloud Next компании Google и NVIDIA представили планы развития аппаратного обеспечения, чтобы радикально снизить расходы на запуск ИИ-инференса в промышленных масштабах.
Они рассказали о свежих bare-metal инстансах A5X, построенных на rack-scale системах NVIDIA Vera Rubin NVL72. Благодаря тесному взаимодействию аппаратной части и софта такая конструкция дает до десятикратное уменьшение затрат на обработку одного токена по сравнению с прошлыми поколениями. При этом пропускная способность токенов на мегаватт вырастает тоже в десять раз.
Соединение тысяч процессоров требует гигантской пропускной способности, чтобы не возникали простои. Инстансы A5X справляются с этим, объединяя SuperNIC ConnectX-9 от NVIDIA и сеть Virgo от Google.
Такая сборка позволяет развернуть 80 тысяч GPU NVIDIA Rubin в пределах одного кластера на площадке или до 960 тысяч GPU в распределенной сети сайтов. Чтобы работать на таком уровне, нужна продвинутая система управления задачами: передача данных через почти миллион параллельных чипов требует точной синхронизации, иначе мощности будут простаивать.
Марк Ломайер, вице-президент и глава подразделения ИИ и вычислительной инфраструктуры Google Cloud, отметил: «В Google Cloud мы считаем, что ближайшие десять лет ИИ определит способность клиентов выполнять самые сложные задачи на цельной инфраструктуре, заточенной под ИИ».
«Мы соединяем масштабируемую инфраструктуру и готовые сервисы ИИ от Google Cloud с топовыми платформами, железом и программами NVIDIA. Это дает клиентам свободу обучать, дообучать и запускать любые модели — от передовых и открытых до агентных и физических ИИ-задач, — балансируя скорость, цену и экологию».
Суверенитет данных и облачная безопасность
Сверх мощных вычислений вопрос контроля над данными стоит особенно остро для корпоративных систем. Сферы вроде финансов и медицины часто откладывают проекты машинного обучения из-за строгих правил по локализации данных и опасений утечки служебных сведений.
Для соблюдения таких норм модели Google Gemini на ускорителях NVIDIA Blackwell и Blackwell Ultra запускаются в preview-режиме на Google Distributed Cloud. Такой подход позволяет компаниям размещать передовые модели строго в своих зонах контроля, рядом с критически важными базами данных.
В основе лежит NVIDIA Confidential Computing — защита на аппаратном уровне. Она гарантирует, что процесс обучения проходит в изолированной среде: запросы и данные дообучения шифруются. Никто посторонний, даже администраторы облака, не сможет их прочитать или подправить.
В публичных облаках для нескольких арендаторов preview Confidential G4 VM с GPU NVIDIA RTX PRO 6000 Blackwell приносит аналогичную криптозащиту. Регулируемые отрасли получают доступ к мощному железу, не рискуя приватностью. Это дебютное облачное confidential computing для чипов NVIDIA Blackwell.
Нагрузка на операции при обучении агентного ИИ
Создание многошаговых агентных систем подразумевает связь больших языковых моделей с запутанными API, постоянную синхронизацию векторных баз и борьбу с галлюцинациями алгоритмов в реальном времени.
Чтобы упростить эти инженерные трудности, NVIDIA Nemotron 3 Super теперь работает на платформе Gemini Enterprise Agent. Она снабжает разработчиков инструментами для настройки и запуска моделей рассуждений и мультимодальных задач, заточенных под агентов. Общая платформа NVIDIA в Google Cloud подходит для семейств Gemini и Gemma, помогая строить системы, которые думают, планируют и действуют.
Обучение таких моделей в масштабе создает огромную нагрузку на операции, особенно при подборе размеров кластеров и восстановлении после сбоев железа в длительных циклах reinforcement learning.
Google Cloud и NVIDIA запустили Managed Training Clusters на платформе Gemini Enterprise Agent с управляемым API reinforcement learning на базе NVIDIA NeMo RL. Система сама подстраивает кластеры, чинит отказы и выполняет задания, освобождая data science-команды от рутины инфраструктуры — они фокусируются на качестве моделей.
CrowdStrike применяет открытые библиотеки NVIDIA NeMo, включая NeMo Data Designer и NeMo Megatron Bridge, для синтеза данных и дообучения моделей под кибербезопасность. На Managed Training Clusters с Blackwell ускоряется их автоматизированное обнаружение и реакция на угрозы.
Интеграция со старыми системами и физические симуляции
Внедрение машинного обучения в тяжелую промышленность и производство несет иные инженерные вызовы. Связь цифровых моделей с реальными цехами требует точных симуляций физики, колоссальной вычислительной мощи и унификации древних форматов данных. Инфраструктура ИИ и библиотеки physical AI от NVIDIA теперь доступны в Google Cloud — база для симуляции и автоматизации производственных процессов.
Крупные поставщики промышленного ПО вроде Cadence и Siemens выложили свои решения в Google Cloud с ускорением от NVIDIA. Эти инструменты тянут проектирование и выпуск тяжелой техники, авиации и беспилотных машин.
Производственные фирмы часто сидят на системах управления жизненным циклом продуктов возрастом в десятилетия, что усложняет перенос геометрии и физических данных. С библиотеками NVIDIA Omniverse и открытым фреймворком NVIDIA Isaac Sim через Google Cloud Marketplace разработчики обходят эти барьеры, строят реалистичные цифровые двойники и натаскивают роботов в симуляциях перед реальным стартом.
Развертывание микросервисов NVIDIA NIM вроде модели Cosmos Reason 2 на Google Vertex AI и Google Kubernetes Engine позволяет визуальным агентам и роботам понимать и перемещаться в физическом мире. Эти платформы выводят от CAD прямо к живым промышленным цифровым двойникам.
Влияние на экосистему ускоренных вычислений
Чтобы перевести спецификации железа в реальные финансовые выгоды, стоит посмотреть, как пионеры используют эту инфраструктуру.
Ассортимент охватывает от полных стоек NVL72 до долевых G4 VM с 1/8 GPU. Клиенты точно подбирают ускорение под mixture-of-experts, рассуждения и обработку данных.
Thinking Machines Lab масштабирует API Tinker на A4X Max VM для ускорения обучения. OpenAI гоняет масштабный инференс на NVIDIA GB300 и GB200 NVL72 в Google Cloud для тяжелых задач вроде ChatGPT.
Snap перевел пайплайны данных на GPU-ускоренный Spark в Google Cloud, чтобы сэкономить на массовых A/B-тестах. В фарме Schrödinger с NVIDIA-ускорением в Google Cloud сокращает симуляции поиска лекарств с недель до часов.
Сообщество разработчиков выросло стремительно: за год к совместному комьюнити NVIDIA и Google Cloud присоединились свыше 90 тысяч человек.
Стартапы вроде CodeRabbit и Factory юзают модели на базе NVIDIA Nemotron в Google Cloud для ревью кода и автономных агентов разработки ПО. Aible, Mantis AI, Photoroom и Baseten строят корпоративные данные, видеоанализ и генеративные изображения на этой full-stack платформе.
Google Cloud и NVIDIA вместе закладывают вычислительную основу, чтобы переводить экспериментальных агентов и симуляции в боевые системы для защиты флотов и оптимизации заводов в реальном мире.