Стартап Inception Labs выпустил первую модель ИИ для рассуждений на основе диффузии. Она работает быстро и стоит недорого.
В отличие от стандартных языковых моделей, которые проходят по тексту слово за словом, Mercury 2 дорабатывает сразу несколько блоков текста. Создатели сравнивают подход с редактором, который смотрит на весь черновик целиком, а не ковыряется в отдельных словах.
Пока что ключевые плюсы — это скорость и низкая цена. На GPU Nvidia Blackwell модель выдает 1009 токенов в секунду при полной задержке всего 1,7 секунды. Для сравнения: Gemini 3 Flash тратит 14,4 секунды, а Claude Haiku 4.5 с рассуждениями — 23,4 секунды. По качеству выход близок к лидерам среди быстрых моделей, уверяют в компании.
Цена — 0,25 доллара за миллион входных токенов и 0,75 доллара за миллион выходных. По входу это вдвое дешевле Gemini 3 Flash (0,50/3,00 доллара), а по выходу — вчетверо. С Claude Haiku 4.5 (1,00/5,00 доллара) вход вчетверо доступнее, выход — более чем вдвое.
| Модель | Задержка E2E (с) | GPQA Diamond | LCB | SciCode | IFBench | AIME | TAU |
|---|---|---|---|---|---|---|---|
| Mercury 2 | 1.7 | 74 | 67 | 38 | 71 | 91 | 53 |
| GPT-5 Nano (Minimal) | 4.5 | 43 | 47 | 29 | 33 | 27 | 26 |
| Claude 4.5 Haiku (Non-Reasoning) | 5.0 | 65 | 51 | 34 | 42 | 39 | 33 |
| Gemini 2.5 Flash-Lite (Reasoning) | 7.8 | 71 | 59 | 29 | 53 | 69 | 31 |
| Gemini 3 Flash (Reasoning) | 14.4 | 90 | 91 | 51 | 78 | 78 | 80 |
| Gemini 2.5 Flash (Reasoning) | 15.6 | 79 | 69 | 39 | 50 | 57 | 32 |
| GPT-5 Mini (Medium) | 22.8 | 80 | 69 | 41 | 71 | 48 | 71 |
| Claude 4.5 Haiku (Reasoning) | 23.4 | 67 | 62 | 43 | 54 | 84 | 55 |
Модель поддерживает контекст в 128K токенов, работу с инструментами и вывод в формате JSON. Inception нацеливается на бизнес с приложениями, чувствительными к задержкам: голосовые помощники, инструменты для программирования, поисковые системы.
Mercury 2 уже работает через API, совместимый с OpenAI.
Индустрия ИИ ищет замену архитектуре Transformer
В ноябре Inception собрала 50 миллионов долларов от инвесторов вроде Microsoft, Nvidia и Snowflake. В начале 2025 года стартап показал первый прототип. Mercury 2 — это готовая к бою версия с полноценными рассуждениями.
Google DeepMind тоже пробует языковые модели на диффузии. Gemini Diffusion дотянула до уровня Gemini 2.0 Flash Lite в бенчмарках. Но после премьеры в мае 2025 года от Google тишина.
Шире смотря, множество стартапов роет альтернативы главной архитектуре Transformer. Выживут ли диффузионные языковые модели в перспективе — покажет время.