Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Nemotron 3 Nano Omni: Nvidia раскрыла устройство современной мультимодальной модели

Nvidia выпустила открытую мультимодальную модель Nemotron 3 Nano Omni для текста, изображений, видео и аудио, ориентированную на агентные задачи. Она использует гибрид Mamba-Transformer с MoE и обучающие данные от Qwen, GPT-OSS и других, показывая высокие результаты на бенчмарках вроде OSWorld с точностью 47,4%. Релиз включает веса, данные и пайплайны под коммерческой лицензией.

29 апреля 2026 г.
4 мин
5

Nvidia представила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая обрабатывает текст, изображения, видео и аудио. Главная особенность не только в её возможностях, но и в обучающих данных, собранных с помощью моделей вроде Qwen, GPT-OSS, Kimi и DeepSeek-OCR.

Nemotron 3 Nano Omni — это открытая мультимодальная модель, объединяющая обработку текста, изображений, видео и аудио в единой архитектуре. Модель с 30 миллиардами параметров построена на гибриде Mamba-Transformer с Mixture-of-Experts и активирует около трёх миллиардов параметров на каждый запрос. Она работает с энкодером зрения C-RADIOv4-H собственной разработки Nvidia и аудиоэнкодером Parakeet-TDT, поддерживая контекстное окно до 256 тысяч токенов. Поддерживается исключительно английский язык.

Как указано в техническом отчёте, Nemotron 3 Nano Omni создана прежде всего для агентных задач: обработки документов, агентов для работы с компьютером, анализа видео и аудио, а также голосового взаимодействия. На тестах OCRBenchV2, MMLongBench-Doc, WorldSense и VoiceBench модель обходит своего предшественника Nemotron Nano V2 VL и идёт на равных с Qwen3-Omni от Alibaba. На бенчмарке OSWorld для GUI-агентов точность выросла с 11,1 до 47,4 балла по сравнению с предыдущей версией. Nvidia сообщает, что при сопоставимой интерактивности пропускная способность в девять раз выше, чем у Qwen3-Omni.

Как соперницы повлияли на состав обучающих данных

Бенчмарки впечатляют, но не менее любопытны сведения об обучающих данных — такие детали доступны только при настоящем open-source-релизе. Nvidia прошла через семь этапов обучения, обработав примерно 717 миллиардов токенов, и на каждом шаге увеличивала размер контекстного окна.

Значительная доля синтетических данных получена от моделей-конкурентов. Подписи к изображениям, пары вопрос-ответ и трассы рассуждений созданы с использованием Qwen3-VL-30B-A3B-Instruct, Qwen3.5-122B-A10B, Qwen2.5-VL-72B-Instruct, gpt-oss-120b от OpenAI, Kimi-K2.5, GLM-4.1V-9B-Thinking и DeepSeek-OCR. Фильтрацию проводили с помощью GPT-4o и Gemini 3 Flash Preview.

Практика использования чужих моделей для обучения новых распространена в отрасли, хотя обычно об этом не говорят открыто. Компании вроде OpenAI, Anthropic и Google не раз упрекали китайские ИИ-лаборатории в масштабной дистилляции.

Для аудио задействовали наборы данных Granary и SIFT-50M от Nvidia, а также подписи от Omni-Captioner компании Qwen. На этапе reinforcement learning разработчики создали пятиступенчатый пайплайн по 25 окружениям, охватывающим задачи вроде визуального заземления, понимания чартов и документов, кликов по интерфейсам и автоматического распознавания речи.

Помимо весов в форматах BF16, FP8 и NVFP4, Nvidia открывает фрагменты обучающих данных, тренировочные пайплайны на Megatron-Bridge и рецепты RL на NeMo-RL. Это выделяет релиз на фоне проектов, где публикуют только веса. Режим рассуждений активен по умолчанию — для задач без цепочки мыслей его нужно отключать вручную. Модель распространяется по лицензии NVIDIA Open Model Agreement, разрешающей коммерческое применение.