В 2025 году лидерство в области открытых языковых моделей с доступными весами захватили не Кремниевая долина или Нью-Йорк, а Пекин и Ханчжоу.
Китайские исследовательские группы, такие как Qwen от Alibaba, DeepSeek, Moonshot и Baidu, задают темп разработки масштабных моделей типа Mixture-of-Experts (MoE) с либеральными лицензиями и высокими результатами в тестах. OpenAI тоже представил летом открытую универсальную LLM — gpt-oss-20B и 120B, — но её популярность сдерживают не менее мощные альтернативы, как отмечают пользователи.
Американская компания решила ответить на этот вызов.
Arcee AI объявила о выпуске Trinity Mini и Trinity Nano Preview — первых моделей из семейства Trinity. Это открытые MoE-модели, полностью обученные в США.
Trinity Mini можно протестировать в чат-боте на chat.arcee.ai, а обе модели доступны для скачивания на Hugging Face. Разработчики могут их запускать, дообучать и модифицировать бесплатно по лицензии Apache 2.0, подходящей для бизнеса.
Хоть эти модели и меньше крупнейших флагманов, они — редкий пример, когда стартап из США создаёт открытые модели с нуля: от данных до обучения на американской инфраструктуре с использованием отечественного пайплайна данных.
«Я переполнен гордостью за команду и сильной усталостью, поэтому с трудом выражаю, насколько рад выпуску этих моделей, — написал технический директор Arcee AI Лукас Аткинс в посте на X. — Особенно Mini».
Третья модель, Trinity Large с 420 млрд параметров и 13 млрд активных на токен, уже обучается и выйдет в январе 2026 года.
«Мы хотим добавить в эту картину то, чего не хватало, — заявил Аткинс в манифесте запуска Trinity на сайте Arcee. — Семейство серьёзных открытых моделей, обученных полностью в США... которое бизнес и разработчики смогут по-настоящему владеть».
От компактных моделей к большим планам
Проект Trinity — поворотный момент для Arcee AI, ранее известной компактными моделями для предприятий. Компания привлекла 29,5 млн долларов инвестиций, включая 24 млн в раунде Series A в 2024 году от Emergence Capital. Ранее вышли AFM-4.5B — компактная модель с дообучением на инструкции в середине 2025 года — и SuperNova, 70-миллиардная модель для следования инструкциям, предназначенная для развёртывания в VPC предприятий.
Эти релизы решали проблемы регуляций и затрат при использовании закрытых LLM в компаниях.
С Trinity Arcee идёт дальше: не просто дообучение, а полное предобучение открытых базовых моделей — с упором на рассуждения в длинном контексте, адаптацию к синтетическим данным и интеграцию с системами повторного обучения в реальном времени.
Mini и Nano изначально задумывались как ступеньки к Large, но эксперименты с разреженным моделированием сделали их полноценными продуктами.
Ключевые технические особенности
Trinity Mini — модель на 26 млрд параметров с 3 млрд активных на токен, оптимизированная для быстрого рассуждения, вызовов функций и работы с инструментами. Trinity Nano Preview — 6 млрд параметров с около 800 млн активных неэмбеддинговых параметров — экспериментальная чат-модель с яркой личностью, но меньшей устойчивостью в сложных задачах.
Обе используют новую архитектуру Arcee Attention-First Mixture-of-Experts (AFMoE) — кастомный MoE с глобальной разреженностью, комбинацией локального/глобального внимания и техникой gated attention.
AFMoE вдохновлена успехами DeepSeek и Qwen, но отличается тесной интеграцией маршрутизации экспертов с улучшенным стеком внимания — включая grouped-query attention, gated attention и паттерн локального/глобального внимания для лучшей работы с длинным контекстом.
Обычная MoE-модель похожа на колл-центр с 128 специалистами («экспертами»): на каждый запрос подключают лишь нескольких, в зависимости от темы. Это экономит ресурсы.
AFMoE уникальна в выборе экспертов и смешивании их вкладов. Стандартные MoE берут топ по ранжированию.
AFMoE применяет плавную маршрутизацию на основе сигмоиды — как регулировка громкости, а не резкое включение, — для гармоничного сочетания мнений.
«Attention-first» подчёркивает фокус на механизме внимания: модель лучше запоминает важное, недавнее или эмоционально значимое, как при чтении книги. AFMoE сочетает локальное внимание (на свежий контекст) с глобальным (на ключевые моменты), сохраняя баланс.
Gated attention добавляет регулятор громкости для каждого выхода внимания — усиливает или ослабляет информацию, как в групповом разговоре.
Всё это обеспечивает стабильность обучения и эффективность в масштабе: модель лучше понимает длинные диалоги, мыслит чётче и работает быстрее без огромных вычислений.
В отличие от многих MoE, AFMoE акцентирует стабильность на глубине и эффективность обучения — с маршрутизацией на сигмоиде без дополнительной потери, нормализацией с масштабированием глубины для избежания расходимости.
Возможности моделей
Trinity Mini имеет MoE-архитектуру с 128 экспертами, 8 активными на токен и 1 всегда активным общим экспертом. Окно контекста — до 131 072 токенов, в зависимости от провайдера.
В тестах Mini конкурирует с более крупными моделями по рассуждениям, обходя gpt-oss в SimpleQA (проверка фактической памяти и признания неопределённости), MMLU (zero-shot, знания и логика по предметам без примеров) и BFCL V3 (многошаговые вызовы функций и инструменты):

График производительности LLM Arcee Trinity Mini в сравнении с моделями чуть большего размера. Автор изображения: Arcee
MMLU (zero-shot): 84.95
Math-500: 92.10
GPQA-Diamond: 58.55
BFCL V3: 59.67
На платформах Together и Clarifai Mini даёт свыше 200 токенов в секунду с задержкой end-to-end менее 3 секунд — подходит для интерактивных приложений и агентов.
Trinity Nano, хоть и меньше и слабее на граничных случаях, подтверждает работоспособность разреженной MoE при менее 1 млрд активных параметров на токен.
Доступ, цены и интеграции
Обе модели под лицензией Apache 2.0 — либеральной и удобной для бизнеса и исследований. Trinity Mini доступна через:
Цены API на OpenRouter для Trinity Mini:
$0.045 за миллион входных токенов
$0.15 за миллион выходных токенов
бесплатный тариф на ограниченное время
Модель интегрирована в Benchable.ai, Open WebUI, SillyTavern. Поддержка в Hugging Face Transformers, VLLM, LM Studio, llama.cpp.
Данные без компромиссов: роль DatologyAI
Arcee делает ставку на полный контроль данных обучения — в отличие от открытых моделей на сомнительных веб-скрапах. Здесь ключевую роль играет DatologyAI, стартап по курации данных от экс-исследователя Meta и DeepMind Ари Моркоса.
Платформа DatologyAI автоматизирует фильтрацию, дедупликацию и повышение качества данных. Для Trinity она собрала корпус в 10 триллионов токенов в три фазы: 7T общих данных, 1,8T высококачественного текста и 1,2T с упором на STEM — математику и код.
Та же связка работала для AFM-4.5B, но теперь в большем масштабе и сложности. По словам Arcee, фильтрация Datology и поддержка Prime Intellect стали основой успеха.
Стартап Prime Intellect, запущенный в начале 2024 года, начал с децентрализованного рынка GPU и стека обучения для доступности вычислений ИИ.
Prime Intellect прославился распределённым обучением INTELLECT-1 (10 млрд параметров на GPU из пяти стран), а позже INTELLECT-3 (106 млрд) показал: децентрализация работает, но для 100B+ лучше централизованные системы.
Для Mini и Nano Prime Intellect предоставил оркестрацию, модифицированный TorchTitan, 512 GPU H200 в bf16-пайплайне с HSDP-параллелизмом. Также хостит кластер 2048 B300 GPU для Trinity Large.
Сотрудничество подчёркивает разницу между идеями и практикой: Prime Intellect держит курс на децентрализацию, но для Arcee даёт эффективную прозрачную инфраструктуру под юрисдикцией США с контролем происхождения и безопасности.
Ставка на суверенитет моделей
Переход Arcee к полному предобучению отражает идею: будущее корпоративного ИИ — в контроле всего цикла обучения, а не только дообучения. По мере эволюции систем с адаптацией от использования и автономной работой с инструментами важны соответствие нормам и управление целями обучения наравне с производительностью.
«По мере усложнения приложений грань между 'моделью' и 'продуктом' сдвигается, — отметил Аткинс в манифесте Trinity. — Для такого ПО нужен контроль весов и пайплайна обучения, а не только инструкционного слоя».
Это отличает Trinity от других открытых проектов. Arcee строит свою модель полностью — от данных до деплоя, инфраструктуры и оптимизатора — с партнёрами, разделяющими идеи открытости и независимости.
Что дальше: Trinity Large
Идёт обучение Trinity Large — 420 млрд параметров в MoE на архитектуре AFMoE с большим набором экспертов.
Данные — 20T токенов поровну синтетических от DatologyAI и куративных веб-данных.
Запуск в январе 2026 года с полным техотчётом.
При успехе Trinity Large станет одной из немногих открытых флагманских моделей, обученных в США, — укрепив позиции Arcee в открытой экосистеме, где американские LLM часто закрыты или на иностранных базах.
Новый импульс открытому ИИ в США
Когда самые передовые открытые модели всё больше зависят от китайских лабораторий, запуск Trinity от Arcee меняет вектор: попытка вернуть лидерство прозрачным разработкам под контролем США.
С поддержкой партнёров по данным и инфраструктуре, построенная с нуля для долгосрочной адаптации, Trinity — смелое заявление о будущем американского ИИ. Оно доказывает, что небольшие компании могут раздвигать границы открыто, даже в индустрии, где всё товаризируется.
Вопрос — сможет ли Trinity Large угнаться за богатыми конкурентами. Но Mini и Nano уже применяют, а сильная архитектура на месте, — Arcee подтверждает тезис: суверенитет моделей важнее размера в новой эре ИИ.