
Введение
Большие языковые модели обрели настоящую скорость после выхода у Groq собственной архитектуры обработки под названием Groq Language Processing Unit LPU. Эти чипы разработаны специально для вывода языковых моделей и сразу подняли планку ожиданий по производительности. В то время GPT-4 генерировал в среднем около 25 токенов в секунду. Groq же показал результаты свыше 150 токенов в секунду, что сделало возможным реальное взаимодействие с ИИ без задержек.
Этот прорыв показал: ускорение вывода достигается не только за счет большего числа GPU. Удачная конструкция чипов или тонкая настройка софта дают огромный прирост. После этого в сферу вошли другие компании, еще сильнее разогнав генерацию токенов. Некоторые провайдеры сейчас выдают тысячи токенов в секунду на открытых моделях. Такие изменения позволяют разработчикам создавать приложения с мгновенными откликами вместо ожидания минут.
Здесь мы разберем пять лидеров по скорости среди провайдеров LLM API, которые определяют новые стандарты. Акцент на минимальных задержках, высокой пропускной способности и реальных показателях для популярных открытых моделей.
1. Cerebras
Cerebras лидирует по чистой пропускной способности благодаря необычному подходу к железу. Вместо кластеров GPU здесь используется Wafer-Scale Engine — цельная пластина кремния как один гигантский чип. Это убирает узкие места в коммуникациях и обеспечивает параллельные вычисления с огромной полосой пропускания памяти. В итоге токены генерируются очень быстро, а задержка до первого токена остается низкой.
Такая система идеальна для задач, где важна максимальная скорость генерации, вроде длинных обзоров, извлечения данных, создания кода или производственных эндпоинтов с высоким QPS.
Примеры показателей:
- 3 115 токенов в секунду на gpt-oss-120B (high) при ~0,28 с до первого токена
- 2 782 токена в секунду на gpt-oss-120B (low) при ~0,29 с до первого токена
- 1 669 токенов в секунду на GLM-4.7 при ~0,24 с до первого токена
- 2 041 токен в секунду на Llama 3.3 70B при ~0,31 с до первого токена
Ключевые особенности: Cerebras ставит скорость на первое место. Иногда, как с GLM-4.7, цена выше, чем у медленных аналогов, но для задач с высоким трафиком выгода от производительности перекрывает расходы.
2. Groq
Groq славится отзывчивостью ответов в повседневном использовании. Сильная сторона — не только высокая скорость токенов, но и минимальная задержка до первого. Достигается это за счет LPU от Groq с детерминированным выполнением без накладных расходов на планирование, типичных для GPU. Ответы начинают поступать почти мгновенно.
Groq особенно хорош для интерактивных задач, где важна быстрая реакция наряду со скоростью: чаты, агенты, копилоты и системы реального времени.
Примеры показателей:
- 935 токенов в секунду на gpt-oss-20B (high) при ~0,17 с до первого токена
- 914 токенов в секунду на gpt-oss-20B (low) при ~0,17 с до первого токена
- 467 токенов в секунду на gpt-oss-120B (high) при ~0,17 с до первого токена
- 463 токена в секунду на gpt-oss-120B (low) при ~0,16 с до первого токена
- 346 токенов в секунду на Llama 3.3 70B при ~0,19 с до первого токена
Когда выбрать: Groq выигрывает там, где критично быстрое начало ответа. Даже если другие дают больший пик, Groq обеспечивает более живой и отзывчивый опыт.
3. SambaNova
SambaNova дает мощные результаты благодаря Reconfigurable Dataflow Architecture — кастомному решению для эффективного запуска больших моделей без GPU-планировщиков. Данные проходят через модель предсказуемо, без лишних трат, с устойчивой пропускной способностью. SambaNova сочетает железо с софтом, заточенным под большие трансформеры, особенно семейство Llama.
Получается стабильная высокая скорость на крупных моделях с приемлемой задержкой до первого токена для производственных нагрузок.
Примеры показателей:
- 689 токенов в секунду на Llama 4 Maverick при ~0,80 с до первого токена
- 611 токенов в секунду на gpt-oss-120B (high) при ~0,46 с до первого токена
- 608 токенов в секунду на gpt-oss-120B (low) при ~0,76 с до первого токена
- 365 токенов в секунду на Llama 3.3 70B при ~0,44 с до первого токена
Когда выбрать: SambaNova подойдет командам с моделями на базе Llama, которым нужна надежная высокая скорость без гонки за одним пиковым бенчмарком.
4. Fireworks AI
Fireworks AI разгоняет токены упором на софт-оптимизации, а не на одном типе железа. Платформа заточена под открытые модели: оптимизирует загрузку, память и пути выполнения. Применяются квантизация, кэширование и тюнинг под модели, плюс спекулятивное декодирование для роста скорости без задержек.
Подход дает ровные результаты по разным семействам моделей — надежный вариант для продакшена с несколькими большими моделями.
Примеры показателей:
- 851 токен в секунду на gpt-oss-120B (low) при ~0,30 с до первого токена
- 791 токен в секунду на gpt-oss-120B (high) при ~0,30 с до первого токена
- 422 токена в секунду на GLM-4.7 при ~0,47 с до первого токена
- 359 токенов в секунду на GLM-4.7 non reasoning при ~0,45 с до первого токена
Когда выбрать: Fireworks хорош для команд с несколькими крупными моделями в продакшене — стабильная скорость без сюрпризов.
5. Baseten
Baseten выделяется на GLM-4.7, где близок к лидерам. Платформа фокусируется на оптимизированном сервисе моделей, эффективном использовании GPU и тюнинге под семейства. Это дает солидную пропускную способность на GLM, хотя на огромных GPT OSS результаты скромнее.
Baseten стоит взять, если приоритет — скорость GLM-4.7, а не универсальный пик.
Примеры показателей:
- 385 токенов в секунду на GLM-4.7 при ~0,59 с до первого токена
- 369 токенов в секунду на GLM-4.7 non reasoning при ~0,69 с до первого токена
- 242 токена в секунду на gpt-oss-120B (high)
- 246 токенов в секунду на gpt-oss-120B (low)
Когда выбрать: Baseten интересен для GLM-4.7: чуть уступает Fireworks, но обгоняет многих, хоть и не дотягивает до топа на больших GPT OSS.
Сравнение сверхбыстрых провайдеров LLM API
Таблица ниже показывает провайдеров по скорости генерации токенов и задержке до первого на больших моделях, подчеркивая сильные стороны каждой платформы.
| Провайдер | Главное преимущество | Максимум токенов/с | Задержка до первого токена | Лучшие сценарии |
|---|---|---|---|---|
| Cerebras | Экстремальная пропускная способность на очень больших моделях | До 3 115 (gpt-oss-120B) | ~0,24–0,31 с | Эндпоинты с высоким QPS, длинные генерации, нагрузки на пропускную способность |
| Groq | Самые отзывчивые ответы | До 935 (gpt-oss-20B) | ~0,16–0,19 с | Интерактивные чаты, агенты, копилоты, системы реального времени |
| SambaNova | Высокая скорость для моделей семейства Llama | До 689 (Llama 4 Maverick) | ~0,44–0,80 с | Развертывания Llama с устойчивой высокой скоростью |
| Fireworks | Стабильная скорость по большим моделям | До 851 (gpt-oss-120B) | ~0,30–0,47 с | Команды с несколькими семействами моделей в продакшене |
| Baseten | Сильные результаты на GLM-4.7 | До 385 (GLM-4.7) | ~0,59–0,69 с | Развертывания на GLM |