В Сан-Хосе, Калифорния, на конференцию Nvidia GTC съехалось более 30 тысяч участников — это событие окрестили Суперкубком ИИ. Во время ключевого выступления генеральный директор Nvidia Дженсен Хуанг представил новую линейку чипов следующего поколения Vera Rubin. Впервые компания, доминирующая на рынке GPU, выпустила процессор, заточенный исключительно под ИИ-инференс. Речь идет о языковой процессорной единице Nvidia Groq 3 LPU, которая использует интеллектуальную собственность, лицензированную у стартапа Groq в канун Рождества за 20 миллиардов долларов США.
Хуанг заявил собравшимся: «Наконец ИИ способен выполнять полезную работу, и настал переломный момент для инференса. Теперь ИИ должен думать, а для этого требуется инференс. ИИ должен действовать, а для действий тоже нужен инференс».
Обучение моделей и инференс предъявляют разные требования к вычислениям. Обучение работает с огромными объемами данных параллельно и может длиться неделями, а инференс запускается по запросу пользователя в реальном времени. В отличие от обучения, здесь не нужна ресурсоемкая обратная пропаганда. Главное — минимальная задержка: пользователи ждут быстрого ответа от чат-бота, а для моделей с размышлениями инференс проходит много раз, прежде чем появится результат.
В последние годы стартапы, специализирующиеся на чипах для инференса, переживали настоящий бум, пробуя разные способы ускорения процесса. Среди них D-matrix с цифровыми вычислениями в памяти, Etched с ASIC для трансформеров, RainAI с нейроморфными чипами, EnCharge с аналоговыми вычислениями в памяти, Tensordyne с логарифмической математикой для повышения эффективности ИИ-вычислений, FuriosaAI с аппаратной оптимизацией под тензорные операции вместо умножения вектор-матрица и другие.
В конце прошлого года казалось, что Nvidia выбрала лидера среди этих чипов для инференса, объявив о сделке с Groq. Анонс Nvidia Groq 3 LPU случился всего через два с половиной месяца, подчеркивая срочность растущего рынка инференса.
Пропускная способность памяти и поток данных
Подход Groq к ускорению инференса основан на чередовании вычислительных блоков и блоков памяти прямо на чипе. Вместо высокоскоростной памяти HBM, стоящей рядом с GPU, используется SRAM, встроенная в сам процессор. Такая архитектура упрощает движение данных по чипу, делая его линейным и последовательным.
«Данные проходят прямо через SRAM», — пояснил Марк Хипс на конференции Supercomputing в 2024 году. Тогда он был главным технологическим евангелистом в Groq, а сейчас руководит маркетингом для разработчиков в Nvidia. «В многопроцессорном GPU многие команды инструкций уходят за пределы чипа в память и возвращаются обратно. У нас этого нет — все движется линейно».
SRAM обеспечивает сверхбыстрый линейный поток данных, что дает нужную низкую задержку для задач инференса. «LPU оптимизирована исключительно под экстремально быструю генерацию токенов с минимальной задержкой», — отметил Иан Бак, вице-президент и генеральный менеджер по гипермасштабным системам и высокопроизводительным вычислениям в Nvidia.
Сравнение Rubin GPU и Groq 3 LPU наглядно показывает различия. Rubin GPU имеет доступ к 288 ГБ HBM и обеспечивает 50 петафлопс 4-битных вычислений в секунду. Groq 3 LPU располагает всего 500 МБ SRAM и 1,2 петафлопс 8-битных вычислений. Зато пропускная способность памяти у LPU достигает 150 ТБ/с — в семь раз выше, чем 22 ТБ/с у Rubin GPU. Именно эта легкая, ориентированная на скорость конструкция делает LPU идеальной для инференса.
Новый чип для инференса подчеркивает сдвиг в развитии ИИ: нагрузка перемещается от создания все более крупных моделей к их массовому использованию. «Анонс Nvidia подтверждает значимость архитектур на базе SRAM для крупномасштабного инференса, и никто не довел плотность SRAM дальше, чем d-Matrix», — считает CEO d-Matrix Сид Шет. Он уверен, что клиентам дата-центров понадобится разнообразие процессоров для инференса. «Победные системы объединят разные типы кремния и легко впишутся в существующие дата-центры рядом с GPU».
Чипы только для инференса — не единственный путь. На прошлой неделе Amazon Web Services объявила о развертывании новой системы инференса в своих дата-центрах. Она сочетает AI-акселератор AWS Tranium и третье поколение компьютера CS-3 от Cerebras Systems, построенное вокруг самого большого в мире монолитного чипа. Система использует разбиение инференса: предобработку промта (prefill) и генерацию вывода (decode). Prefill параллелен, вычислительно интенсивен и не требует высокой пропускной способности памяти, а decode — последовательный процесс с большим спросом на память. Cerebras решила проблему памяти, разместив 44 ГБ SRAM на чипе и связав их сетью на 21 ПБ/с.
Nvidia тоже применит разбиение инференса в новом вычислительном лотке Nvidia Groq 3 LPX. Каждый лоток вместит 8 LPU Groq 3 и Vera Rubin — связку GPU Rubin с CPU Vera. Предобработку и вычислительно тяжелые части decode возьмет на себя Vera Rubin, а финальную генерацию — Groq 3 LPU, используя сильные стороны каждого чипа. «Мы уже находимся в массовом производстве», — добавил Хуанг.