Семья моделей Nemotron 3 от Nvidia объединяет архитектуры Mamba и Transformer, чтобы справляться с длинными контекстами без лишних затрат ресурсов.
Эти модели созданы для ИИ-агентов, которые самостоятельно выполняют сложные задания на протяжении длительного времени. В линейке три версии: Nano, Super и Ultra. Nano уже можно использовать, а Super с Ultra появятся в первой половине 2026 года.
Компания отошла от привычных чистых Transformer. Вместо этого применили гибридную схему с эффективными слоями Mamba 2, элементами Transformer и методом Mixture of Experts (MoE), который уже пробовали IBM и Mistral.
Такая комбинация экономит ресурсы, особенно при обработке длинных входных последовательностей. В чистых Transformer память расходуется пропорционально длине входа, а слои Mamba сохраняют постоянный объем памяти во время генерации текста.
Nemotron 3 обрабатывает контекст длиной в миллион токенов. Это на уровне ресурсоемких флагманских моделей от OpenAI и Google. Благодаря этому агенты удерживают в памяти целые репозитории кода или протяженные истории разговоров, не перегружая оборудование.
Гибридная архитектура повышает эффективность
Модель Nano насчитывает 31,6 миллиарда параметров в сумме, но активируется только 3 миллиарда на каждом шаге обработки. На бенчмарке Artificial Analysis Index открытая модель по точности не уступает gpt-oss-20B и Qwen3-30B, при этом обеспечивая гораздо большую пропускную способность токенов. Правда, по данным Artificial Analysis, для прохождения теста ей требуется 160 миллионов токенов — заметно больше, чем у ближайшего конкурента Qwen3-VL с его 110 миллионами.
Для более крупных Super и Ultra Nvidia внедрила два новшества. Первое — LatentMoE. Оно решает проблему с пропускной способностью памяти при прямой маршрутизации токенов к сетям экспертов в обычных MoE-моделях. Токены теперь проецируются в сжатое латентное представление перед обработкой. По словам Nvidia, это позволяет задействовать больше экспертов и активных экспертов на токен, не замедляя инференс.
Большие модели также применяют multi-token prediction (MTP): во время обучения они предсказывают сразу несколько будущих токенов, а не только следующий. Это усиливает логическое мышление и ускоряет создание текста. Super и Ultra работают с новым форматом NVFP4 — 4-битной плавающей запятой, разработанным под архитектуру Blackwell GPU.
Nvidia опубликовала данные для обучения
Такой выпуск необычен для крупного разработчика ИИ. Nvidia открыла веса версии Nano, рецепты обучения и большинство датасетов на Hugging Face.
Среди наборов данных — Nemotron-CC-v2.1 (2,5 триллиона токенов на базе Common Crawl), Nemotron-CC-Code-v1 (428 миллиардов токенов кода) плюс синтетические данные по математике, науке и безопасности.
Модели обучали с подкреплением в нескольких окружениях одновременно. Так достигается баланс: улучшения в одной сфере не вредят другим. Разработчики могут подключать свои RL-окружения через открытую библиотеку NeMo Gym.
Релиз соответствует недавнему акценту Nvidia на компактных языковых моделях для задач с агентами. Nemotron 3 делает ставку на скорость, а не на абсолютную мощь. Нумерация слегка запутанная: Nemotron-4, ориентированный на синтетические данные, Nvidia выпустила еще летом 2024 года.