Prometheus-сервер с 128 ТБ памяти ломает «стену памяти» ИИ

Сервер Prometheus от Majestic Labs с 128 ТБ DRAM-памяти и чипом Ignite нацелен на преодоление «стены памяти» в генерации текста большими языковыми моделями. Архитектура без HBM и модульная конструкция обещают снижение затрат и энергопотребления до 50 раз. Поставки намечены на 2027 год.

Проблема «стены памяти» в больших языковых моделях

Память — возможно, самое серьезное ограничение для современных больших языковых моделей (LLM). Согласно одному влиятельному исследованию, генерация токенов в LLM — это задача, упирающаяся именно в пропускную способность памяти: скорость вывода текста напрямую зависит от того, насколько быстро данные считываются из памяти. Чем крупнее модель, тем острее это узкое место. Так возникает «стена памяти», которая сдерживает производительность LLM при инференсе.

Стартап Majestic Labs и сервер Prometheus

AI-стартап Majestic Labs взялся за решение этой проблемы комплексно. Компания разрабатывает новый сервер Prometheus с объемом памяти до 128 терабайт — это более чем в 60 раз превосходит показатели передовой стойки Nvidia DGX B300. Сооснователь и президент Majestic Labs Ша Рабии уверен, что такой колоссальный запас памяти даст его компании преимущество. Признавая, что «Nvidia проделала феноменальную работу, создав масштабируемую систему», он утверждает: по мере роста моделей решение Nvidia становится менее экономичным, «предлагая избыточные вычисления при нехватке памяти».

Архитектура на основе DRAM

Чтобы преодолеть «стену памяти», Majestic Labs предлагает архитектуру, принципиально отличную от конкурентов. Современные серверы Nvidia используют быструю высокопропускную память HBM для загрузки весов модели и, как правило, более медленную, но емкую DRAM для служебных нужд. Majestic же делает ставку исключительно на DRAM (а именно LPDDR6) в рамках унифицированной архитектуры.

Рабии поясняет: большинство интерфейсов памяти рассчитаны на работу на сверхкоротких расстояниях — иногда считанные миллиметры, что ограничивает объем размещаемой памяти.

«У чипа вычислений есть своя "береговая линия", вдоль которой можно разместить HBM. Если захотите больше — не получится», — объясняет Рабии.

Решение Majestic — собственный интерфейс на миниатюрных медных кабелях, эффективно работающий на расстоянии до метра. Он подключается к специализированным чипам агрегации памяти, которые физически находятся рядом с модулями и координируют работу памяти по всему серверу. «Это конечная точка для высокоскоростного интерфейса, которая затем расходится на множество стандартных чипов DRAM», — описывает Рабии. Такой подход не только позволяет работать с огромными объемами памяти, но и обеспечивает пропускную способность до 25,6 терабайт в секунду.

ИИ-процессор Ignite для ускорения LLM

Большая память требует мощного вычислительного ускорителя, такого как GPU от Nvidia. У Majestic эту роль выполняет Ignite — собственный процессор, выступающий вычислительным движком сервера. В каждом Prometheus установлено 12 таких чипов.

Ignite объединяет на одном кристалле серверные ARM-ядра прикладного класса и векторные/тензорные ядра на архитектуре RISC-V, работающие в общем адресном пространстве. ARM-ядра выступают в роли хостового процессора и управляют загрузкой модели, а RISC-V-ядра непосредственно выполняют обработку LLM. В результате один чип справляется сразу с несколькими задачами инференса, исключая передачу данных между разными процессорами. Конкретные показатели производительности Prometheus пока не раскрываются.

Рабии подчеркивает важность программной совместимости: «Мы стараемся максимально снизить барьеры для внедрения — как на физическом, так и на программном уровне». Сервер поддерживает фреймворки PyTorch, vLLM и OpenAI Triton без необходимости модификации кода. Существующие модели, совместимые с этими фреймворками, запускаются без изменений.

Дизайн сервера, стоимость и выход на рынок

Сам сервер выполнен в форм-факторе Open Compute Project: 21 дюйм в ширину и 36 дюймов в глубину. В стандартную стойку помещается до четырех таких серверов, суммарное энергопотребление может достигать 120 киловатт на стойку. Для отвода тепла применяется жидкостное охлаждение с холодными пластинами.

Память сервера имеет модульную конструкцию — системы, изначально заказанные с объемом менее максимальных 128 ТБ, можно будет позже нарастить. Несмотря на масштаб проекта, Majestic планирует агрессивную ценовую политику: компания намерена конкурировать по стоимости, что удивительно при таком объеме памяти. Добиться этого предполагается за счет использования DRAM вместо дорогой HBM. Цены пока не объявлены, поставки Prometheus ожидаются в 2027 году.

«Капитальные затраты наших клиентов снизятся, в зависимости от нагрузки, от десяти до пятидесяти раз, и энергопотребление сократится аналогично», — утверждает Рабии.

Prometheus: сервер с 128 ТБ памяти против «стены памяти» ИИ

Проблема «стены памяти» в больших языковых моделях

Стартап Majestic Labs и сервер Prometheus

Архитектура на основе DRAM

ИИ-процессор Ignite для ускорения LLM

Дизайн сервера, стоимость и выход на рынок

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Топ-5 MCP-серверов для создания мощных ИИ-агентов

YouTube уточняет правила по ИИ-мусору и шокирующим видео

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Сейчас в тренде