Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Nvidia за 20 млрд берёт Groq

Nvidia якобы приобретает Groq за 20 миллиардов долларов, чтобы интегрировать её чипы с низкой задержкой и получить ключевых инженеров. Сделка помогает справиться с ростом цен на память HBM, конкуренцией в инференсе и нуждами ИИ-агентов. Это укрепляет позиции компании в специализированных задачах и блокирует соперников вроде AMD и Cerebras.

вчера
5 мин
15

Nvidia якобы тратит 20 миллиардов долларов на чиповую технологию Groq и её ведущих инженеров. Сделка сразу решает проблемы с расходами на память, соперничеством в инференсе и развитием ИИ-агентов.

На первый взгляд, сделка с Groq кажется переплатой за то, что Nvidia способна создать самостоятельно. Оценка достигает 20 миллиардов долларов. После сентябрьского раунда финансирования Groq оценивалась в 6,9 миллиарда, что даёт премию почти в три раза. Компании не раскрывают финансовые детали и не подтверждают цифры.

В более широком контексте Nvidia решает сразу несколько ключевых вызовов с помощью этой условной покупки. Вот основные мотивы, хотя они могут пересекаться.

Специализированные чипы выигрывают у универсальных

Nvidia описывает фабрику ИИ как инфраструктуру для полного цикла: сбор данных, обучение и инференс. В руководстве по фабрике ИИ для предприятий подчёркивают нужду в низкой задержке и высокой пропускной способности для задач в реальном времени и взаимодействия сложных агентов.

Разным задачам ИИ требуется разное железо. В письме сотрудникам, о котором первым сообщил CNBC, Дженсен Хуанг объявил о включении низкозадержечных процессоров Groq в архитектуру фабрики ИИ. Теперь задачи будут направляться на подходящие чипы.

GPU с большим объёмом HBM остаются основой для обучения и массовой обработки. Архитектура SRAM от Groq подойдёт для приложений реального времени вроде голосовых агентов или автономных систем. Так Nvidia избежит использования дорогих GPU с HBM для всех задач с жёсткими требованиями к задержке.

Bank of America оценивает сделку как неожиданную, стратегическую, дорогую, наступательную, оборонительную и дополняющую сразу. Аналитики считают, что Nvidia видит быстрый переход от обучения к инференсу и готовит специализированные чипы. Благодаря доминированию на платформе компания может ослабить угрозы от других производителей спецчипов.

Цены на память влияют на ситуацию

По данным TrendForce, Samsung и SK hynix повысили цены на поставки HBM3e в 2026 году почти на 20 процентов. Samsung в ноябре 2025-го подняла цены на некоторые чипы памяти до 60 процентов по сравнению с сентябрём. Спотовые цены на DDR5 взлетели на 307 процентов с начала сентября 2025-го.

Reuters в октябре писал, что SK hynix распродала весь объём производства на 2026 год. Другой материал Reuters отмечает, что HBM4 использует кастомный "base die" — нижний слой стека памяти, более ориентированный на клиента. Это усложняет переход к конкурентам и усиливает нагрузку на цепочки поставок.

Vvidia уже предупреждала об этом в отчёте Form 10-K за FY2025 от января 2025-го: "Чтобы зарезервировать будущие поставки и мощности, мы платили премии, давали депозиты и заключали долгосрочные контракты на поставки и ёмкости, что повышало стоимость продуктов, и это может продолжаться". Reuters цитирует Дженсена Хуанга: цены растут, но Nvidia зафиксировала значительные объёмы.

Архитектура с SRAM на первом месте снижает нужду в HBM

SRAM — сверхбыстрая память, встроенная прямо в чип. HBM тоже быстрая, но расположена вне вычислительного кристалла и зависит от цепочек поставок с узкими местами.

Архитектура LPU от Groq применяет SRAM на чипе как основную память для весов моделей, а не только кэш. Это уменьшает зависимость от внешнего HBM, но ограничивает размер модели на одном чипе. Крупные модели приходится распределять по множеству чипов.

Такой компромисс подходит для задач с чувствительностью к задержке. Инвестор Gavin Baker на X объяснил: инференс делится на фазы prefill и decode. В decode SRAM даёт преимущество, поскольку скорость доступа важнее объёма. Nvidia получит оптимизированный путь для инференса с низкой задержкой.

SRAM ускорит модели Mixture of Experts

Современные модели вроде Deepseek V3 строятся на Mixture of Experts (MoE): на запрос активируются только часть экспертов. В Deepseek V3 это 37 из 671 миллиарда параметров.

Аналитик по чипам Zephyr на X указывает: в MoE-моделях всегда работают общие эксперты и плотные слои. Их веса логично хранить в SRAM, а редких — в HBM.

Для Deepseek V3 Zephyr посчитал: всегда активные компоненты в FP8 занимают чуть меньше 3,6 ГБ. Чтобы они уместились в SRAM, Nvidia придётся подогнать размер памяти или распределить ядро по чипам для локального доступа. Прирост пропускной способности — 6–10 процентов. На фоне ежегодных трат на железо в 300 миллиардов долларов это ощутимая сумма.

Baker видит сделку частью большой стратегии чипов: Nvidia может выпустить варианты Rubin — один для большого объёма в prefill, второй сбалансированный для обучения и батчевого инференса, третий с большим SRAM для decode с низкой задержкой. Большинство кастомных чипов отменят, кроме TPU Google, чипов ИИ Tesla и Trainium Amazon.

Компактные модели и скоростные чипы

Сделка вписывается в общую стратегию Nvidia. В августе 2025-го исследователи Nvidia опубликовали статью, где призывают чаще использовать маленькие языковые модели до 10 миллиардов параметров в ИИ-агентах. Такие модели справляются с 40–70 процентами типичных запросов агентов и стоят в 10–30 раз дешевле больших.

Модель на 7 миллиардов параметров в FP8 требует около 7 ГБ на веса плюс память на данные времени выполнения вроде KV-кэша. Модели на 70 миллиардов распределяют по куда большему числу чипов. Архитектура Groq с SRAM идеально подходит: для систем агентов с множеством коротких запросов, где важнее низкая задержка, чем максимальный размер модели.

Стабильная задержка перевешивает максимальную скорость

GPU распределяют задачи динамически во время работы. Это даёт пик пропускной способности, но приводит к непредсказуемым задержкам. Отдельные запросы иногда сильно отстают от среднего.

LPU Groq действует иначе: весь чип работает как оркестр в унисон. Все блоки выполняют одну инструкцию одновременно, но на разных данных. Компилятор заранее планирует все вычисления.

Как пишет технический блог Groq, такой "статический планировщик" обеспечивает постоянное время отклика независимо от нагрузки. Для языковых агентов или решений в реальном времени это ценнее пиковой производительности.

Сделка ослабляет конкурентов в инференсе

Nvidia лидирует в обучении, но в инференсе давят AMD и стартапы вроде Groq и Cerebras. Обе компании заявились на проекты на Ближнем Востоке.

Если бы Groq развивалась самостоятельно, она могла стать фаворитом для кластеров с низкой задержкой и надавила бы на цены Nvidia. Google тоже мог бы заинтересоваться Groq для укрепления TPU.

Инженеры — главная ценность

По объявлению Groq, к Nvidia переходят Джонатан Росс, Санни Мадра и другие инженеры. Росс — ветеран TPU, участвовал в их создании в Google, а в 2016-м основал Groq.

Важно, что эти специалисты создали полную систему: железо, софт и компилятор. Nvidia получает команду, умеющую строить инференс-чип с нуля. В отличие от GPU, статическая схема Groq не терпит отклонений: компилятор расписывает каждый цикл заранее и точно знает поведение железа.