В условиях бурного развития инфраструктуры искусственного интеллекта возникает все большее давление на максимизацию вычислительной мощности для вывода моделей на серверах с использованием доступных графических процессоров. Для специалистов, обладающих глубокими знаниями в определенных методах оптимизации, сейчас особенно благоприятный момент для привлечения инвестиций.
Именно такой подход лежит в основе деятельности компании Tensormesh, которая на этой неделе вышла из режима стелс-режима и объявила о получении 4,5 миллиона долларов в рамках посевного раунда. Инвестиции возглавила фирма Laude Ventures, а дополнительное участие приняли ангел-инвесторы, включая пионера в области баз данных Майкла Франклина.
Полученные средства Tensormesh направит на разработку коммерческой версии утилиты с открытым исходным кодом LMCache, которая была создана и поддерживается сооснователем компании Ихуа Ченгом. При правильном применении LMCache способна сократить затраты на вывод моделей в десять раз, что сделало ее неотъемлемой частью развертываний с открытым кодом и привлекло партнерства с крупными игроками, такими как Google и Nvidia. Теперь Tensormesh намерена превратить эту академическую репутацию в устойчивый бизнес.
В основе механизма ключ-значение (или кэша KV) лежит система памяти, предназначенная для более эффективной обработки сложных входных данных путем их сжатия до ключевых значений. В стандартных архитектурах кэш KV сбрасывается по окончании каждого запроса, однако, по мнению генерального директора Tensormesh Джу-чена Цзянга, это представляет собой серьезный источник неэффективности.
«Это подобно наличию высококвалифицированного аналитика, который тщательно изучает все данные, но забывает усвоенную информацию после каждого вопроса», — отмечает сооснователь Tensormesh Джу-чен Цзян.
Вместо сброса кэша системы Tensormesh сохраняют его, что позволяет повторно использовать при выполнении аналогичных операций в последующих запросах. Поскольку память графических процессоров чрезвычайно ценна, данные могут распределяться по нескольким уровням хранения, но в итоге это обеспечивает значительно большую производительность вывода при той же нагрузке на сервер.
Такие модификации особенно эффективны для чат-интерфейсов, где модели вынуждены постоянно обращаться к расширяющемуся журналу беседы по мере ее развития. Аналогичные проблемы возникают в агентных системах, где накапливается лог действий и целей.
В принципе, эти улучшения компании в сфере ИИ могут реализовать самостоятельно, но их техническая сложность делает задачу весьма трудоемкой. Учитывая опыт команды Tensormesh в исследованиях этого процесса и детальную проработку механизма, фирма рассчитывает на высокий спрос на готовое решение.
«Сохранение кэша KV во вторичной системе хранения с эффективным повторным использованием без замедления всей системы — это крайне сложная задача», — подчеркивает Цзян. «Мы наблюдали, как команды нанимали до 20 инженеров и тратили три-четыре месяца на создание подобной системы. Альтернативно, они могут воспользоваться нашим продуктом и добиться результатов гораздо быстрее».