Память выходит на первый план в инфраструктуре ИИ
Разговоры о расходах на инфраструктуру ИИ обычно крутятся вокруг Nvidia и графических ускорителей, но память все чаще становится центральным элементом. Пока крупные провайдеры возводят дата-центры стоимостью в миллиарды долларов, цена чипов DRAM взлетела примерно в семь раз за последний год.
В то же время набирает обороты управление всей этой памятью, чтобы данные timely попадали к подходящим агентам. Фирмы, которые разберутся в этом, смогут обрабатывать те же запросы с меньшим количеством токенов — фактор, определяющий, кто выживет на рынке.
Семипроводниковый аналитик и главный специалист по ИИ в Weka разбирают значение чипов памяти. Их акцент на аппаратной части, но выводы для ПО ИИ тоже весомы.
Особенно цепляет анализ документации Anthropic по кэшированию промтов: страница ценообразования.
Сигнал в том, как изменилась страница ценообразования на кэширование промтов у Anthropic. Полгода назад, на старте Claude Code, там было просто: "включи кэш — сэкономишь". Сейчас — целая книга советов, сколько записей в кэш заранее купить. Есть слоты на 5 минут, популярные в отрасли, или на час — и выше ничего. Это ключевой намек. Плюс арбитраж на чтении кэша в зависимости от объема предоплаченных записей.
Речь о времени хранения промта в кэше Claude: за 5 минут или дороже — за час. Данные из кэша обходятся гораздо дешевле, так что умелое управление дает серьезную экономию. Но есть подвох: свежие данные в запросе могут выдавить старые из окна кэша.
Задача сложная, но суть проста: управление памятью в моделях ИИ станет определяющим направлением. Те, кто преуспеет здесь, выделятся среди конкурентов.
В этой области полно пространства для прорывов. Осенью компания TensorMesh привлекла 4,5 миллиона долларов на оптимизацию кэша — один из слоев стека.
Возможности есть и ниже, и выше. В дата-центрах решают, когда применять чипы DRAM вместо HBM (обсуждение в интервью уходит в дебри железа). На верхнем уровне пользователи настраивают рои моделей, чтобы эффективно делить кэш.
По мере совершенствования оркестрации памяти фирмы сократят расход токенов, а вывод моделей подешевеет. Одновременно сами модели лучше справляются с каждым токеном, давя затраты еще сильнее. Когда расходы на серверы упадут, многие сегодняшние идеи из разряда "не окупается" перейдут в прибыльную зону.