Накопление неиспользуемых видео
Компании производят видео в огромных объемах. Архивы телетрансляций, камеры в магазинах, часы производственного материала — большая часть этого просто лежит на серверах, не просматриваясь и не анализируясь. Такие данные называют темными данными: компании их собирают автоматически, но почти никогда не применяют по-настоящему.
Чтобы решить эту задачу, Аза Кай (гендиректор) и Хираку Янагита (операционный директор), которые почти десять лет работали вместе в Google Japan, запустили собственный проект. Они основали InfiniMind — токийский стартап, который превращает петабайты непросмотренного видео и аудио в структурированные данные, готовые к запросам для бизнеса.
Во время работы в Google Кай и его партнер заметили приближение переломного момента в этой области. К 2024 году технологии дозрели, а спрос стал очевидным, поэтому они решили создать компанию самостоятельно.
Кай, ранее занимавшийся в Google Japan облачными сервисами, машинным обучением, рекламными системами и моделями рекомендаций видео, а потом руководивший командами data science, подчеркивает: существующие инструменты предлагают компромисс. Раньше модели могли помечать объекты на отдельных кадрах, но не отслеживали сюжеты, причинно-следственные связи или не отвечали на сложные вопросы о содержимом. Для клиентов с десятилетиями архивов и петабайтами материала даже простые вопросы оставались без ответа.
Ключевой прорыв произошел с развитием vision-language моделей с 2021 по 2023 год. Тогда видео-ИИ вышел за рамки простого распознавания объектов, отмечает Кай. Снижение цен на GPU и ежегодный прирост производительности на 15–20% за последние десять лет помогли, но главное — новые возможности моделей, которые раньше просто не справлялись.
Инвестиции и запуск продуктов
InfiniMind привлекла $5,8 млн на сидовом раунде от UTEC с участием CX2, Headline Asia, Chiba Dojo и исследователя ИИ из a16z Scout. Компания переносит штаб-квартиру в США, сохраняя офис в Японии. Япония стала идеальной площадкой для тестов: мощное железо, квалифицированные инженеры и развитая экосистема стартапов позволили доработать технологию с требовательными клиентами перед выходом на глобальный рынок.
Первый продукт, TV Pulse, вышел в Японии в апреле 2025 года. Эта платформа на базе ИИ анализирует телеконтент в реальном времени, позволяя медиакомпаниям и ритейлерам отслеживать упоминания продуктов, присутствие брендов, настроения зрителей и влияние PR. После пилотов с крупными broadcaster'ами и агентствами платформа уже приносит доход от оптовиков и медиакомпаний.
Теперь InfiniMind выходит на международный уровень. Флагманский продукт DeepFrame — платформа для анализа длинных видео — обрабатывает 200 часов материала, чтобы найти нужные сцены, спикеров или события. Бета-версия запланирована на март, полный релиз — на апрель 2026 года.

Рынок видеоанализа сильно раздроблен. TwelveLabs предлагает универсальные API для понимания видео всем — от обычных пользователей до бизнеса, а InfiniMind сосредоточилась на корпоративных сценариях: мониторинг, безопасность, анализ контента для глубоких выводов.
Решение InfiniMind не требует кода: клиенты загружают данные, система их обрабатывает и выдает готовые insights. Платформа учитывает аудио, звуки и речь, помимо видео. Она справляется с видео любой длины, а экономия затрат — главное преимущество. Большинство аналогов фокусируются на точности или узких задачах, игнорируя проблему стоимости.
Инвестиции пойдут на доработку DeepFrame, расширение инфраструктуры, найм инженеров и привлечение клиентов в Японии и США.
Это перспективное направление, ведущее к AGI, считает Кай. Понимание общего видео-ИИ — это понимание реальности. Промышленные применения важны, но главная цель — раздвинуть границы технологий, чтобы лучше осмысливать мир и помогать людям принимать верные решения.