Tensormesh: $4.5M на оптимизацию AI inference

В условиях бурного развития инфраструктуры искусственного интеллекта возникает все большее давление на максимизацию вычислительной мощности для вывода моделей на серверах с использованием доступных графических процессоров. Для специалистов, обладающих глубокими знаниями в определенных методах оптимизации, сейчас особенно благоприятный момент для привлечения инвестиций.

Именно такой подход лежит в основе деятельности компании Tensormesh, которая на этой неделе вышла из режима стелс-режима и объявила о получении 4,5 миллиона долларов в рамках посевного раунда. Инвестиции возглавила фирма Laude Ventures, а дополнительное участие приняли ангел-инвесторы, включая пионера в области баз данных Майкла Франклина.

Полученные средства Tensormesh направит на разработку коммерческой версии утилиты с открытым исходным кодом LMCache, которая была создана и поддерживается сооснователем компании Ихуа Ченгом. При правильном применении LMCache способна сократить затраты на вывод моделей в десять раз, что сделало ее неотъемлемой частью развертываний с открытым кодом и привлекло партнерства с крупными игроками, такими как Google и Nvidia. Теперь Tensormesh намерена превратить эту академическую репутацию в устойчивый бизнес.

В основе механизма ключ-значение (или кэша KV) лежит система памяти, предназначенная для более эффективной обработки сложных входных данных путем их сжатия до ключевых значений. В стандартных архитектурах кэш KV сбрасывается по окончании каждого запроса, однако, по мнению генерального директора Tensormesh Джу-чена Цзянга, это представляет собой серьезный источник неэффективности.

«Это подобно наличию высококвалифицированного аналитика, который тщательно изучает все данные, но забывает усвоенную информацию после каждого вопроса», — отмечает сооснователь Tensormesh Джу-чен Цзян.

Вместо сброса кэша системы Tensormesh сохраняют его, что позволяет повторно использовать при выполнении аналогичных операций в последующих запросах. Поскольку память графических процессоров чрезвычайно ценна, данные могут распределяться по нескольким уровням хранения, но в итоге это обеспечивает значительно большую производительность вывода при той же нагрузке на сервер.

Такие модификации особенно эффективны для чат-интерфейсов, где модели вынуждены постоянно обращаться к расширяющемуся журналу беседы по мере ее развития. Аналогичные проблемы возникают в агентных системах, где накапливается лог действий и целей.

В принципе, эти улучшения компании в сфере ИИ могут реализовать самостоятельно, но их техническая сложность делает задачу весьма трудоемкой. Учитывая опыт команды Tensormesh в исследованиях этого процесса и детальную проработку механизма, фирма рассчитывает на высокий спрос на готовое решение.

«Сохранение кэша KV во вторичной системе хранения с эффективным повторным использованием без замедления всей системы — это крайне сложная задача», — подчеркивает Цзян. «Мы наблюдали, как команды нанимали до 20 инженеров и тратили три-четыре месяца на создание подобной системы. Альтернативно, они могут воспользоваться нашим продуктом и добиться результатов гораздо быстрее».

Tensormesh привлекла $4.5 млн для оптимизации inference

Горячее

Как ИИ модели думают: новое исследование

Самые актуальные AI-носители и гаджеты для покупки

Nano Banana Pro от Google меняет ИИ-арт

Обзор Abacus AI: ChatLLM и DeepAgent

White-Box-Coder: ИИ с самопроверкой кода

Сейчас в тренде