NVIDIA и Google удешевляют ИИ-инференс в 10 раз

На конференции Google Cloud Next компании Google и NVIDIA представили планы развития аппаратного обеспечения, чтобы радикально снизить расходы на запуск ИИ-инференса в промышленных масштабах.

Они рассказали о свежих bare-metal инстансах A5X, построенных на rack-scale системах NVIDIA Vera Rubin NVL72. Благодаря тесному взаимодействию аппаратной части и софта такая конструкция дает до десятикратное уменьшение затрат на обработку одного токена по сравнению с прошлыми поколениями. При этом пропускная способность токенов на мегаватт вырастает тоже в десять раз.

Соединение тысяч процессоров требует гигантской пропускной способности, чтобы не возникали простои. Инстансы A5X справляются с этим, объединяя SuperNIC ConnectX-9 от NVIDIA и сеть Virgo от Google.

Такая сборка позволяет развернуть 80 тысяч GPU NVIDIA Rubin в пределах одного кластера на площадке или до 960 тысяч GPU в распределенной сети сайтов. Чтобы работать на таком уровне, нужна продвинутая система управления задачами: передача данных через почти миллион параллельных чипов требует точной синхронизации, иначе мощности будут простаивать.

Марк Ломайер, вице-президент и глава подразделения ИИ и вычислительной инфраструктуры Google Cloud, отметил: «В Google Cloud мы считаем, что ближайшие десять лет ИИ определит способность клиентов выполнять самые сложные задачи на цельной инфраструктуре, заточенной под ИИ».

«Мы соединяем масштабируемую инфраструктуру и готовые сервисы ИИ от Google Cloud с топовыми платформами, железом и программами NVIDIA. Это дает клиентам свободу обучать, дообучать и запускать любые модели — от передовых и открытых до агентных и физических ИИ-задач, — балансируя скорость, цену и экологию».

Суверенитет данных и облачная безопасность

Сверх мощных вычислений вопрос контроля над данными стоит особенно остро для корпоративных систем. Сферы вроде финансов и медицины часто откладывают проекты машинного обучения из-за строгих правил по локализации данных и опасений утечки служебных сведений.

Для соблюдения таких норм модели Google Gemini на ускорителях NVIDIA Blackwell и Blackwell Ultra запускаются в preview-режиме на Google Distributed Cloud. Такой подход позволяет компаниям размещать передовые модели строго в своих зонах контроля, рядом с критически важными базами данных.

В основе лежит NVIDIA Confidential Computing — защита на аппаратном уровне. Она гарантирует, что процесс обучения проходит в изолированной среде: запросы и данные дообучения шифруются. Никто посторонний, даже администраторы облака, не сможет их прочитать или подправить.

В публичных облаках для нескольких арендаторов preview Confidential G4 VM с GPU NVIDIA RTX PRO 6000 Blackwell приносит аналогичную криптозащиту. Регулируемые отрасли получают доступ к мощному железу, не рискуя приватностью. Это дебютное облачное confidential computing для чипов NVIDIA Blackwell.

Нагрузка на операции при обучении агентного ИИ

Создание многошаговых агентных систем подразумевает связь больших языковых моделей с запутанными API, постоянную синхронизацию векторных баз и борьбу с галлюцинациями алгоритмов в реальном времени.

Чтобы упростить эти инженерные трудности, NVIDIA Nemotron 3 Super теперь работает на платформе Gemini Enterprise Agent. Она снабжает разработчиков инструментами для настройки и запуска моделей рассуждений и мультимодальных задач, заточенных под агентов. Общая платформа NVIDIA в Google Cloud подходит для семейств Gemini и Gemma, помогая строить системы, которые думают, планируют и действуют.

Обучение таких моделей в масштабе создает огромную нагрузку на операции, особенно при подборе размеров кластеров и восстановлении после сбоев железа в длительных циклах reinforcement learning.

Google Cloud и NVIDIA запустили Managed Training Clusters на платформе Gemini Enterprise Agent с управляемым API reinforcement learning на базе NVIDIA NeMo RL. Система сама подстраивает кластеры, чинит отказы и выполняет задания, освобождая data science-команды от рутины инфраструктуры — они фокусируются на качестве моделей.

CrowdStrike применяет открытые библиотеки NVIDIA NeMo, включая NeMo Data Designer и NeMo Megatron Bridge, для синтеза данных и дообучения моделей под кибербезопасность. На Managed Training Clusters с Blackwell ускоряется их автоматизированное обнаружение и реакция на угрозы.

Интеграция со старыми системами и физические симуляции

Внедрение машинного обучения в тяжелую промышленность и производство несет иные инженерные вызовы. Связь цифровых моделей с реальными цехами требует точных симуляций физики, колоссальной вычислительной мощи и унификации древних форматов данных. Инфраструктура ИИ и библиотеки physical AI от NVIDIA теперь доступны в Google Cloud — база для симуляции и автоматизации производственных процессов.

Крупные поставщики промышленного ПО вроде Cadence и Siemens выложили свои решения в Google Cloud с ускорением от NVIDIA. Эти инструменты тянут проектирование и выпуск тяжелой техники, авиации и беспилотных машин.

Производственные фирмы часто сидят на системах управления жизненным циклом продуктов возрастом в десятилетия, что усложняет перенос геометрии и физических данных. С библиотеками NVIDIA Omniverse и открытым фреймворком NVIDIA Isaac Sim через Google Cloud Marketplace разработчики обходят эти барьеры, строят реалистичные цифровые двойники и натаскивают роботов в симуляциях перед реальным стартом.

Развертывание микросервисов NVIDIA NIM вроде модели Cosmos Reason 2 на Google Vertex AI и Google Kubernetes Engine позволяет визуальным агентам и роботам понимать и перемещаться в физическом мире. Эти платформы выводят от CAD прямо к живым промышленным цифровым двойникам.

Влияние на экосистему ускоренных вычислений

Чтобы перевести спецификации железа в реальные финансовые выгоды, стоит посмотреть, как пионеры используют эту инфраструктуру.

Ассортимент охватывает от полных стоек NVL72 до долевых G4 VM с 1/8 GPU. Клиенты точно подбирают ускорение под mixture-of-experts, рассуждения и обработку данных.

Thinking Machines Lab масштабирует API Tinker на A4X Max VM для ускорения обучения. OpenAI гоняет масштабный инференс на NVIDIA GB300 и GB200 NVL72 в Google Cloud для тяжелых задач вроде ChatGPT.

Snap перевел пайплайны данных на GPU-ускоренный Spark в Google Cloud, чтобы сэкономить на массовых A/B-тестах. В фарме Schrödinger с NVIDIA-ускорением в Google Cloud сокращает симуляции поиска лекарств с недель до часов.

Сообщество разработчиков выросло стремительно: за год к совместному комьюнити NVIDIA и Google Cloud присоединились свыше 90 тысяч человек.

Стартапы вроде CodeRabbit и Factory юзают модели на базе NVIDIA Nemotron в Google Cloud для ревью кода и автономных агентов разработки ПО. Aible, Mantis AI, Photoroom и Baseten строят корпоративные данные, видеоанализ и генеративные изображения на этой full-stack платформе.

Google Cloud и NVIDIA вместе закладывают вычислительную основу, чтобы переводить экспериментальных агентов и симуляции в боевые системы для защиты флотов и оптимизации заводов в реальном мире.

NVIDIA и Google удешевляют ИИ-инференс в 10 раз

Суверенитет данных и облачная безопасность

Нагрузка на операции при обучении агентного ИИ

Интеграция со старыми системами и физические симуляции

Влияние на экосистему ускоренных вычислений

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Разбор 10 агентных проектов GitHub для форкинга

Сейчас в тренде