Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Запуск ИИ-моделей: игра с памятью

Управление памятью в ИИ-моделях превращается в ключевой навык: цены на DRAM взлетели в 7 раз, а кэширование промтов Anthropic требует тонкой настройки. Стартапы вроде TensorMesh уже инвестируют в оптимизацию, обещая дешевый вывод и новые возможности для приложений.

17 февраля 2026 г.
3 мин
25

Память выходит на первый план в инфраструктуре ИИ

Разговоры о расходах на инфраструктуру ИИ обычно крутятся вокруг Nvidia и графических ускорителей, но память все чаще становится центральным элементом. Пока крупные провайдеры возводят дата-центры стоимостью в миллиарды долларов, цена чипов DRAM взлетела примерно в семь раз за последний год.

В то же время набирает обороты управление всей этой памятью, чтобы данные timely попадали к подходящим агентам. Фирмы, которые разберутся в этом, смогут обрабатывать те же запросы с меньшим количеством токенов — фактор, определяющий, кто выживет на рынке.

Семипроводниковый аналитик и главный специалист по ИИ в Weka разбирают значение чипов памяти. Их акцент на аппаратной части, но выводы для ПО ИИ тоже весомы.

Особенно цепляет анализ документации Anthropic по кэшированию промтов: страница ценообразования.

Сигнал в том, как изменилась страница ценообразования на кэширование промтов у Anthropic. Полгода назад, на старте Claude Code, там было просто: "включи кэш — сэкономишь". Сейчас — целая книга советов, сколько записей в кэш заранее купить. Есть слоты на 5 минут, популярные в отрасли, или на час — и выше ничего. Это ключевой намек. Плюс арбитраж на чтении кэша в зависимости от объема предоплаченных записей.

Речь о времени хранения промта в кэше Claude: за 5 минут или дороже — за час. Данные из кэша обходятся гораздо дешевле, так что умелое управление дает серьезную экономию. Но есть подвох: свежие данные в запросе могут выдавить старые из окна кэша.

Задача сложная, но суть проста: управление памятью в моделях ИИ станет определяющим направлением. Те, кто преуспеет здесь, выделятся среди конкурентов.

В этой области полно пространства для прорывов. Осенью компания TensorMesh привлекла 4,5 миллиона долларов на оптимизацию кэша — один из слоев стека.

Возможности есть и ниже, и выше. В дата-центрах решают, когда применять чипы DRAM вместо HBM (обсуждение в интервью уходит в дебри железа). На верхнем уровне пользователи настраивают рои моделей, чтобы эффективно делить кэш.

По мере совершенствования оркестрации памяти фирмы сократят расход токенов, а вывод моделей подешевеет. Одновременно сами модели лучше справляются с каждым токеном, давя затраты еще сильнее. Когда расходы на серверы упадут, многие сегодняшние идеи из разряда "не окупается" перейдут в прибыльную зону.