Проблема «стены памяти» в больших языковых моделях
Память — возможно, самое серьезное ограничение для современных больших языковых моделей (LLM). Согласно одному влиятельному исследованию, генерация токенов в LLM — это задача, упирающаяся именно в пропускную способность памяти: скорость вывода текста напрямую зависит от того, насколько быстро данные считываются из памяти. Чем крупнее модель, тем острее это узкое место. Так возникает «стена памяти», которая сдерживает производительность LLM при инференсе.
Стартап Majestic Labs и сервер Prometheus
AI-стартап Majestic Labs взялся за решение этой проблемы комплексно. Компания разрабатывает новый сервер Prometheus с объемом памяти до 128 терабайт — это более чем в 60 раз превосходит показатели передовой стойки Nvidia DGX B300. Сооснователь и президент Majestic Labs Ша Рабии уверен, что такой колоссальный запас памяти даст его компании преимущество. Признавая, что «Nvidia проделала феноменальную работу, создав масштабируемую систему», он утверждает: по мере роста моделей решение Nvidia становится менее экономичным, «предлагая избыточные вычисления при нехватке памяти».
Архитектура на основе DRAM
Чтобы преодолеть «стену памяти», Majestic Labs предлагает архитектуру, принципиально отличную от конкурентов. Современные серверы Nvidia используют быструю высокопропускную память HBM для загрузки весов модели и, как правило, более медленную, но емкую DRAM для служебных нужд. Majestic же делает ставку исключительно на DRAM (а именно LPDDR6) в рамках унифицированной архитектуры.
Рабии поясняет: большинство интерфейсов памяти рассчитаны на работу на сверхкоротких расстояниях — иногда считанные миллиметры, что ограничивает объем размещаемой памяти.
«У чипа вычислений есть своя "береговая линия", вдоль которой можно разместить HBM. Если захотите больше — не получится», — объясняет Рабии.
Решение Majestic — собственный интерфейс на миниатюрных медных кабелях, эффективно работающий на расстоянии до метра. Он подключается к специализированным чипам агрегации памяти, которые физически находятся рядом с модулями и координируют работу памяти по всему серверу. «Это конечная точка для высокоскоростного интерфейса, которая затем расходится на множество стандартных чипов DRAM», — описывает Рабии. Такой подход не только позволяет работать с огромными объемами памяти, но и обеспечивает пропускную способность до 25,6 терабайт в секунду.
ИИ-процессор Ignite для ускорения LLM
Большая память требует мощного вычислительного ускорителя, такого как GPU от Nvidia. У Majestic эту роль выполняет Ignite — собственный процессор, выступающий вычислительным движком сервера. В каждом Prometheus установлено 12 таких чипов.
Ignite объединяет на одном кристалле серверные ARM-ядра прикладного класса и векторные/тензорные ядра на архитектуре RISC-V, работающие в общем адресном пространстве. ARM-ядра выступают в роли хостового процессора и управляют загрузкой модели, а RISC-V-ядра непосредственно выполняют обработку LLM. В результате один чип справляется сразу с несколькими задачами инференса, исключая передачу данных между разными процессорами. Конкретные показатели производительности Prometheus пока не раскрываются.
Рабии подчеркивает важность программной совместимости: «Мы стараемся максимально снизить барьеры для внедрения — как на физическом, так и на программном уровне». Сервер поддерживает фреймворки PyTorch, vLLM и OpenAI Triton без необходимости модификации кода. Существующие модели, совместимые с этими фреймворками, запускаются без изменений.
Дизайн сервера, стоимость и выход на рынок
Сам сервер выполнен в форм-факторе Open Compute Project: 21 дюйм в ширину и 36 дюймов в глубину. В стандартную стойку помещается до четырех таких серверов, суммарное энергопотребление может достигать 120 киловатт на стойку. Для отвода тепла применяется жидкостное охлаждение с холодными пластинами.
Память сервера имеет модульную конструкцию — системы, изначально заказанные с объемом менее максимальных 128 ТБ, можно будет позже нарастить. Несмотря на масштаб проекта, Majestic планирует агрессивную ценовую политику: компания намерена конкурировать по стоимости, что удивительно при таком объеме памяти. Добиться этого предполагается за счет использования DRAM вместо дорогой HBM. Цены пока не объявлены, поставки Prometheus ожидаются в 2027 году.
«Капитальные затраты наших клиентов снизятся, в зависимости от нагрузки, от десяти до пятидесяти раз, и энергопотребление сократится аналогично», — утверждает Рабии.