Inception запустила Mercury 2 на диффузии

Стартап Inception Labs представил Mercury 2 — первую модель ИИ для рассуждений на диффузии, которая генерирует 1009 токенов/с с задержкой 1,7 с на Nvidia Blackwell и стоит в 2–4 раза дешевле Gemini 3 Flash и Claude Haiku 4.5. Качество на уровне лидеров, поддержка 128K контекста, инструментов и JSON. Это часть тренда на поиск альтернатив Transformer.

Стартап Inception Labs выпустил первую модель ИИ для рассуждений на основе диффузии. Она работает быстро и стоит недорого.

В отличие от стандартных языковых моделей, которые проходят по тексту слово за словом, Mercury 2 дорабатывает сразу несколько блоков текста. Создатели сравнивают подход с редактором, который смотрит на весь черновик целиком, а не ковыряется в отдельных словах.

Пока что ключевые плюсы — это скорость и низкая цена. На GPU Nvidia Blackwell модель выдает 1009 токенов в секунду при полной задержке всего 1,7 секунды. Для сравнения: Gemini 3 Flash тратит 14,4 секунды, а Claude Haiku 4.5 с рассуждениями — 23,4 секунды. По качеству выход близок к лидерам среди быстрых моделей, уверяют в компании.

Цена — 0,25 доллара за миллион входных токенов и 0,75 доллара за миллион выходных. По входу это вдвое дешевле Gemini 3 Flash (0,50/3,00 доллара), а по выходу — вчетверо. С Claude Haiku 4.5 (1,00/5,00 доллара) вход вчетверо доступнее, выход — более чем вдвое.

Модель	Задержка E2E (с)	GPQA Diamond	LCB	SciCode	IFBench	AIME	TAU
Mercury 2	1.7	74	67	38	71	91	53
GPT-5 Nano (Minimal)	4.5	43	47	29	33	27	26
Claude 4.5 Haiku (Non-Reasoning)	5.0	65	51	34	42	39	33
Gemini 2.5 Flash-Lite (Reasoning)	7.8	71	59	29	53	69	31
Gemini 3 Flash (Reasoning)	14.4	90	91	51	78	78	80
Gemini 2.5 Flash (Reasoning)	15.6	79	69	39	50	57	32
GPT-5 Mini (Medium)	22.8	80	69	41	71	48	71
Claude 4.5 Haiku (Reasoning)	23.4	67	62	43	54	84	55

Модель поддерживает контекст в 128K токенов, работу с инструментами и вывод в формате JSON. Inception нацеливается на бизнес с приложениями, чувствительными к задержкам: голосовые помощники, инструменты для программирования, поисковые системы.

Mercury 2 уже работает через API, совместимый с OpenAI.

Индустрия ИИ ищет замену архитектуре Transformer

В ноябре Inception собрала 50 миллионов долларов от инвесторов вроде Microsoft, Nvidia и Snowflake. В начале 2025 года стартап показал первый прототип. Mercury 2 — это готовая к бою версия с полноценными рассуждениями.

Google DeepMind тоже пробует языковые модели на диффузии. Gemini Diffusion дотянула до уровня Gemini 2.0 Flash Lite в бенчмарках. Но после премьеры в мае 2025 года от Google тишина.

Шире смотря, множество стартапов роет альтернативы главной архитектуре Transformer. Выживут ли диффузионные языковые модели в перспективе — покажет время.

Inception Labs представила Mercury 2 — первую модель рассуждений на диффузии

Индустрия ИИ ищет замену архитектуре Transformer

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Всё больше людей узнают новости от ИИ-чатботов, но доверие остаётся низким

Cursor анонсировал ИИ-модель, Origin и мобильное приложение

Сейчас в тренде