Новейший раунд ключевого бенчмарка для вывода ИИ впервые включает мультимодальные и видео-модели. Nvidia, AMD и Intel акцентируют внимание на разных показателях, что усложняет прямые сравнения.
Организация MLCommons 1 апреля 2026 года обнародовала итоги MLPerf Inference v6.0. Все три ведущих производителя чипов представили данные и заявили о лидерстве. Однако результаты лишь частично сопоставимы: компании применяют разные конфигурации систем, модели и сценарии, подстраивая цифры под свои сильные стороны.
Nvidia демонстрирует достижения в основном на DeepSeek-R1 и свежей GPT-OSS-120B, порой с кластерами из 288 GPU. AMD сопоставляет себя с B200 и B300 от Nvidia в односторонних установках по восемь GPU, но пропустила DeepSeek-R1 и мультимодальную Qwen3-VL. Intel ориентируется на другой сегмент — GPU для рабочих станций. При анализе этих цифр важно учитывать различия.
Заметно отсутствие данных от Google по чипам TPU Ironwood последнего поколения или специалистов по выводу вроде Cerebras.
Пять свежих тестов радикально расширили программу испытаний
MLPerf Inference v6.0 ввёл ряд новинок: интерактивный сценарий для DeepSeek-R1 с минимальной скоростью токенов в пять раз выше, первую мультимодальную модель набора Qwen3-VL-235B, GPT-OSS-120B от OpenAI, модель текст-в-видео WAN-2.2-T2V и бенчмарк рекомендаций на трансформерах DLRMv3. Только Nvidia предоставила результаты по всем новым моделям и сценариям.
Программные доработки вдвое повысили пропускную способность Nvidia без смены железа
По данным Nvidia, система GB300-NVL72 на GPU Blackwell Ultra показала максимальную пропускную способность по всем новым задачам. Компания отмечает 2,7-кратный рост производительности на DeepSeek-R1 в серверном сценарии по сравнению с первой подачей полгода назад — на идентичном оборудовании чисто за счёт программных улучшений. Этот скачок обеспечила партнёр Nvidia Nebius. Nvidia заявляет о сокращении затрат на генерацию токенов более чем на 60 процентов.
Прогресс достигнут серией оптимизаций на уровне софта. Базовые вычисления ускорили и объединили, чтобы GPU тратили меньше времени на служебные операции. Открытый фреймворк Nvidia Dynamo разделяет генерацию текста на две фазы (обработка входа и создание токенов) и доводит каждую до ума отдельно.
Для моделей вроде DeepSeek-R1, где на запрос активируется часть параметров, Wide Expert Parallel распределяет веса экспертов по большему числу GPU, избегая узких мест. В интерактивных сценариях с малыми батчами, когда вычисления простаивают, Multi-Token Prediction выдаёт сразу несколько токенов вместо одного. Даже на старой Llama 3.1 405B серверная производительность выросла в 1,5 раза, по словам Nvidia.
В крупнейшей конфигурации в истории MLPerf Inference Nvidia объединила четыре системы GB300-NVL72 — всего 288 GPU — через InfiniBand Quantum-X800. Итог: около 2,49 миллиона токенов в секунду на DeepSeek-R1 в оффлайн-сценарии. Четырнадцать партнёров подали результаты на платформе Nvidia — больше всех в этом раунде. С 2018 года у Nvidia 291 победа в MLPerf — в девять раз больше, чем у остальных вместе взятых.
AMD догнала в односторонних системах и перешагнула миллион токенов в секунду
Как указано в блоге AMD, Instinct MI355X на архитектуре CDNA 4 с техпроцессом 3 нм и до 288 ГБ HBM3E впервые преодолел порог в миллион токенов в секунду в MLPerf — правда, с масштабированием по узлам до 94 GPU на Llama 2 70B и GPT-OSS-120B. По сравнению с MI325X предыдущего поколения MI355X даёт 3,1-кратный прирост на серверном бенчмарке Llama 2 70B.
Самое прямое сопоставление — в односторонних установках по восемь GPU. AMD утверждает, что MI355X сравнялся с B200 Nvidia на Llama 2 70B в оффлайн-режиме, достиг 97 процентов в серверном и 119 процентов в интерактивном. Против B300 — 92, 93 и 104 процента соответственно. На GPT-OSS-120B MI355X обогнал B200 на 11 и 15 процентов в оффлайн и серверном режимах, но отстал от B300 до 91 и 82 процентов.
Два ключевых оговорки: AMD не подавала данные по куда более крупной DeepSeek-R1 с MoE-архитектурой, где Nvidia особенно сильна. Подача по текст-в-видео Wan-2.2 попала в открытую категорию, а не в закрытую, что снижает формальную сравнимость. AMD упоминает послесрочные результаты на 108 процентов от B200, но они не проверены MLCommons.
Масштабирование по 11 узлам дало 93–98 процентов эффективности, по данным AMD. Интересно первое гетерогенное участие в MLPerf: Dell и MangoBoost соединили MI300X, MI325X и MI355X из США и Кореи, достигнув около 142 тысяч токенов в секунду на Llama 2 70B в серверном режиме. Девять партнёров подали результаты на железе AMD, с отклонениями в пределах четырёх процентов от показателей самой AMD.
Intel обходит дата-центровую битву, целя в рабочие станции и edge
Intel выбрал иной путь. Вместо гонки с Nvidia и AMD в дата-центрах компания представляет GPU Arc Pro B70 и B65 с процессорами Xeon 6 как платформу вывода для рабочих станций и edge-систем. Система из четырёх Arc Pro B70 обеспечивает 128 ГБ VRAM и тянет модели с 120 миллиардами параметров при высокой параллелизации, по словам Intel. Arc Pro B70 в 1,8 раза быстрее B60 по выводу.
Программные доработки на том же B60 подняли производительность до 1,18 раза по сравнению с MLPerf v5.1. Intel подчёркивает: только она из производителей серверных CPU подаёт чистые результаты по процессорам в MLPerf Inference. Более половины всех подач в MLPerf 6.0 используют Xeon как хост-CPU.
Почему эти данные не складываются в однозначный рейтинг
Итоги подтверждают: MLPerf Inference — главный отраслевой эталон для бенчмарков вывода ИИ, но без простого лидерборда. Nvidia годами лидирует по охвату новых тестов и абсолютным скоростям на больших масштабах. В односторонних конфигурациях AMD заявляет о паритете или превосходстве над B200 Nvidia по нескольким сценариям, хотя покрывает меньше бенчмарков. Intel работает в ином сегменте.
Каждый производитель подчёркивает выгодные для себя сценарии и настройки. Процентные сравнения AMD с B200 и B300 Nvidia — самые прозрачные head-to-head данные, но только по поданным моделям и сценариям. Масштабирование Nvidia на 288 GPU без аналога от AMD. А 2,7-кратный софт-скачок Nvidia и 3,1-кратный поколенческий прыжок AMD измеряют разное: чистую оптимизацию на старом железе против новой архитектуры.
Nvidia предлагает бенчмарк для реальной API-производительности
К лучшей сравнимости может привести будущий MLPerf Endpoints. Nvidia в блоге анонсировала разработку этого теста в консорциуме MLCommons. Текущие испытания оценивают пропускную способность чипов и систем в стандартизированных условиях, но не отражают поведение сервиса вывода под реальным API-трафиком. С ростом агентных ИИ-систем, требующих высокой скорости токенов, нужны метрики за пределами чистого железа, считает Nvidia. Это играет на сильных сторонах компании: недавно вышла Vera Rubin — система под такие нагрузки.
MLPerf Endpoints даст проверяемую картину работы развёрнутых сервисов под реалистичной нагрузкой, по замыслу Nvidia. Цель — метрики вроде разброса задержек, пропускной способности под параллельными запросами и общей эффективности инфраструктуры, недоступные аппаратным тестам.
AMD тем временем готовит серию MI400 на CDNA 5 и rack-решение Helios к 2026 году. Соревнование за самый эффективный вывод ИИ только набирает обороты.