Moonshot AI представила Kimi K2.5 — по словам разработчиков, самую мощную модель с открытыми весами. Она самостоятельно управляет до 100 ИИ-агентов, которые параллельно решают сложные задачи.
Новая мультимодальная языковая модель Kimi K2.5 развивает Kimi K2, вышедшую в июле.
Главное новшество — система "Agent Swarm", где модель распределяет работу между до 100 субагентами на одной задаче. Эти агенты выполняют до 1500 вызовов инструментов и сокращают время работы до 4,5 раза по сравнению с одиночным агентом.
Модель дообучили на примерно 15 триллионах токенов, и она претендует на звание самой сильной открытой. Особенно это заметно при создании привлекательных интерфейсов фронтенда.
K2.5 построена на архитектуре Mixture-of-Experts с общим объемом параметров в один триллион, из которых 32 миллиарда активны на токен. У нее 384 эксперта, по восемь на токен. Для обработки изображений применяется MoonViT с 400 миллионами параметров. Окно контекста — 256 тысяч токенов.
Оркестратор учится распределять задачи между агентами
Для обучения Moonshot AI применила метод "Parallel-Agent Reinforcement Learning" (PARL). Обучаемый оркестратор-агент разбирает задачи на параллельные подзадачи. Затем динамически создаваемые субагенты берутся за их выполнение, принимая специализированные роли вроде "исследователь ИИ", "исследователь физики" или "проверяльщик фактов".
Типичная проблема таких систем — то, что Moonshot AI называет "Serial Collapse". Оркестратор переходит к последовательному выполнению, хотя параллельность возможна. PARL решает это поэтапной системой вознаграждений: сначала поощряется параллелизм, потом — качество результатов.
Компания демонстрирует возможности на задаче: K2.5 находит топ-3 ютуберов в 100 нишах. Модель сама создает 100 субагентов для параллельного поиска и собирает итоги в таблицу.
Зрение усиливает навыки программирования
Moonshot AI подчеркивает сильные стороны K2.5 в программировании, особенно во фронтенд-разработке. Модель строит полноценные интерфейсы с интерактивными элементами и анимациями по простому текстовому описанию.
K2.5 анализирует изображения и видео, генерируя по ним код. Примеры: восстановление сайта из видео или расчет и разметка кратчайшего пути в лабиринте на картинке.
Бенчмарки подтверждают высокие результаты
В тестах от Moonshot AI K2.5 лидирует в ряде заданий, но уступает конкурентам в других. В агентских задачах модель часто обходит соперников. На BrowseComp она набирает 74,9%, опережая GPT-5.2 с 65,8% и Gemini 3 Pro с 59,2%. На DeepSearchQA — 77,1%, лучше, чем у Claude 4.5 Opus (76,1%).
На SWE-Bench Verified для задач по разработке ПО K2.5 показывает 76,8%. GPT-5.2 и Claude 4.5 Opus набирают 80% и 80,9% соответственно. В многоязычных тестах SWE-Bench Claude 4.5 Opus впереди с 77,5%, K2.5 — 73%.
В бенчмарках по изображениям и видео K2.5 держится на уровне лидеров. На MMMU Pro — 78,5%, чуть меньше, чем у Gemini 3 Pro (81%). На VideoMMMU — 86,6%, немного лучше GPT-5.2, но за Gemini 3 Pro.
Доступ к K2.5 открыт через Kimi.com, мобильное приложение Kimi и API. Веса модели скачиваются с Hugging Face. Agent Swarm в бета-версии для платных пользователей с бесплатными кредитами. Есть четыре режима: K2.5 Instant, K2.5 Thinking, K2.5 Agent и K2.5 Agent Swarm.
Moonshot AI основана в 2023 году и быстро вошла в число ведущих разработчиков языковых моделей в Китае с семейством Kimi. Компания соперствует с американскими OpenAI и Anthropic, а также китайскими DeepSeek и его моделью V3.2.