Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Tensormesh привлекла $4.5 млн для оптимизации inference

Компания Tensormesh вышла из стелс-режима с инвестициями в 4,5 миллиона долларов для коммерциализации утилиты LMCache, которая оптимизирует кэш KV и снижает затраты на inference до десятикратного уровня. Это решение особенно полезно для чат-систем и агентных приложений, где сохраняется и переиспользуется память для повышения эффективности серверов. Благодаря партнерствам с Google и Nvidia, технология уже доказала свою ценность в open-source проектах.

23 октября 2025 г.
2 мин
1

В условиях бурного развития инфраструктуры искусственного интеллекта возникает все большее давление на максимизацию вычислительной мощности для вывода моделей на серверах с использованием доступных графических процессоров. Для специалистов, обладающих глубокими знаниями в определенных методах оптимизации, сейчас особенно благоприятный момент для привлечения инвестиций.

Именно такой подход лежит в основе деятельности компании Tensormesh, которая на этой неделе вышла из режима стелс-режима и объявила о получении 4,5 миллиона долларов в рамках посевного раунда. Инвестиции возглавила фирма Laude Ventures, а дополнительное участие приняли ангел-инвесторы, включая пионера в области баз данных Майкла Франклина.

Полученные средства Tensormesh направит на разработку коммерческой версии утилиты с открытым исходным кодом LMCache, которая была создана и поддерживается сооснователем компании Ихуа Ченгом. При правильном применении LMCache способна сократить затраты на вывод моделей в десять раз, что сделало ее неотъемлемой частью развертываний с открытым кодом и привлекло партнерства с крупными игроками, такими как Google и Nvidia. Теперь Tensormesh намерена превратить эту академическую репутацию в устойчивый бизнес.

В основе механизма ключ-значение (или кэша KV) лежит система памяти, предназначенная для более эффективной обработки сложных входных данных путем их сжатия до ключевых значений. В стандартных архитектурах кэш KV сбрасывается по окончании каждого запроса, однако, по мнению генерального директора Tensormesh Джу-чена Цзянга, это представляет собой серьезный источник неэффективности.

«Это подобно наличию высококвалифицированного аналитика, который тщательно изучает все данные, но забывает усвоенную информацию после каждого вопроса», — отмечает сооснователь Tensormesh Джу-чен Цзян.

Вместо сброса кэша системы Tensormesh сохраняют его, что позволяет повторно использовать при выполнении аналогичных операций в последующих запросах. Поскольку память графических процессоров чрезвычайно ценна, данные могут распределяться по нескольким уровням хранения, но в итоге это обеспечивает значительно большую производительность вывода при той же нагрузке на сервер.

Такие модификации особенно эффективны для чат-интерфейсов, где модели вынуждены постоянно обращаться к расширяющемуся журналу беседы по мере ее развития. Аналогичные проблемы возникают в агентных системах, где накапливается лог действий и целей.

В принципе, эти улучшения компании в сфере ИИ могут реализовать самостоятельно, но их техническая сложность делает задачу весьма трудоемкой. Учитывая опыт команды Tensormesh в исследованиях этого процесса и детальную проработку механизма, фирма рассчитывает на высокий спрос на готовое решение.

«Сохранение кэша KV во вторичной системе хранения с эффективным повторным использованием без замедления всей системы — это крайне сложная задача», — подчеркивает Цзян. «Мы наблюдали, как команды нанимали до 20 инженеров и тратили три-четыре месяца на создание подобной системы. Альтернативно, они могут воспользоваться нашим продуктом и добиться результатов гораздо быстрее».