DeepSeek запустила V4-Pro с 1,6 трлн параметров дешевле

DeepSeek выпустила открытые модели V4-Pro (1,6 трлн параметров) и V4-Flash с контекстом в миллион токенов по ценам ниже OpenAI и Anthropic. Новые архитектуры резко снижают затраты на длинные контексты, а в бенчмарках V4-Pro лидирует среди открытых весов. Модели заточены под агентные задачи и проверены на Nvidia с Huawei.

Китайская лаборатория DeepSeek выпустила модели V4-Pro и V4-Flash с объемом до 1,6 триллиона параметров и контекстным окном в миллион токенов. Стоимость их использования заметно ниже, чем у OpenAI, Google и Anthropic. Технический доклад содержит сведения о данных для обучения, процессе дистилляции и аппаратном обеспечении.

DeepSeek разместила предварительные версии V4-Pro и V4-Flash в формате открытых весов под лицензией MIT. У V4-Pro 1,6 триллиона общих параметров и 49 миллиардов активных, а у V4-Flash — 284 миллиарда общих и 13 миллиардов активных. Обе модели построены как смесь экспертов и поддерживают контекст в миллион токенов. Их можно найти на Hugging Face.

V4-Pro стала самой крупной моделью с открытыми весами, значительно опередив Kimi K2.6 с 1,1 триллионом параметров и GLM-5.1 с 754 миллиардами. Это первая новая архитектура DeepSeek после V3. Все промежуточные релизы — V3.1, V3.2, R1 и R1 0528 — базировались на исходном дизайне V3 с 685 миллиардами параметров.

Длинные контексты теперь тратят меньше ресурсов

Главное нововведение — гибридная схема внимания, объединяющая сжатие токенов с разреженным вниманием от DeepSeek. Как указано в техническом докладе, для обработки контекста в миллион токенов V4-Pro использует лишь 27 процентов FLOPs и 10 процентов объема KV-кэша по сравнению с V3.2. V4-Flash снижает эти показатели еще сильнее — до 10 процентов FLOPs и 7 процентов KV-кэша.

В бенчмарке GDPval-AA от Artificial Analysis V4-Pro возглавила рейтинг открытых моделей с 1554 очками Elo, обогнав GLM-5.1 (1535) и Kimi K2.6 (1484). Это прибавка около 355 очков Elo относительно V4.2. Однако в докладе отмечают, что V4-Pro немного уступает GPT-5.4 и Gemini-3.1-Pro, отставая от лидирующих моделей примерно на три-шесть месяцев. Полные тесты Artificial Analysis продолжаются, но собственные результаты DeepSeek показывают разрыв. Тем временем OpenAI и Anthropic анонсировали GPT-5.5 и Opus 4.7.

График сравнения бенчмарков DeepSeek V4 с другими моделями

Такие достижения в эффективности позволяют устанавливать низкие тарифы. По данным страницы цен DeepSeek, V4-Flash стоит 0,14 доллара за миллион входных токенов и 0,28 доллара за миллион выходных, что дешевле GPT-5.4 Nano. V4-Pro обойдется в 1,74 и 3,48 доллара соответственно, существенно уступая по цене Gemini 3.1 Pro, GPT-5.5 и Claude Sonnet 4.6.

Модель	Ввод ($/M)	Вывод ($/M)
Deepseek V4 Flash	0,14	0,28
Deepseek V4 Pro	1,74	3,48
GPT-5.4	2,50	15
GPT-5.5	5	30
Claude Sonnet 4.6	3	15
Claude Opus 4.6	5	25
Claude Opus 4.7	5	25

Обучение на гигантских объемах данных с собственной дистилляцией

Разработчики скупятся на детали предобучения: V4-Flash обработали 32 триллиона токенов, V4-Pro — 33 триллиона. Акцент сделали на многоязычных данных, отобранных научных публикациях и технических отчетах, а также данных для агентных сценариев на среднем этапе. Веб-данные очистили от массового автогенерированного и шаблонного контента.

Доклад не упоминает конкретные датасеты или источники лицензий. Подозрения в прямой дистилляции из GPT или Claude не нашли подтверждения, чего и следовало ожидать.

Дистилляция ключевой элемент постобучения. DeepSeek полностью отказалась от прежнего смешанного этапа обучения с подкреплением в пользу дистилляции on-policy. Сначала создали более десяти специализированных внутренних моделей для математики, кода, агентов и следования инструкциям с помощью supervised fine-tuning и GRPO. Затем одна студенческая модель училась у всех этих учителей.

Оптимизация под агентные задачи с проверкой на оборудовании Huawei

DeepSeek адаптировала V4 под агентные процессы. Модели интегрированы с инструментами вроде Claude Code, OpenClaw и OpenCode, их уже применяют внутри компании для агентного программирования. API совместим с интерфейсами OpenAI и Anthropic.

В докладе детальнее описано железо: схема параллелизма экспертов протестирована на Nvidia GPUs и Huawei Ascend NPUs. Открытый мега-ядро MegaMoE работает на CUDA, где DeepSeek заменила библиотеку Nvidia cuBLAS на собственную DeepGEMM.

Отдельно Huawei сообщила, что ее Ascend Supernode на чипах Ascend 950 полностью поддерживает модели V4.

DeepSeek представила V4-Pro и V4-Flash почти бесплатно

Длинные контексты теперь тратят меньше ресурсов

Обучение на гигантских объемах данных с собственной дистилляцией

Оптимизация под агентные задачи с проверкой на оборудовании Huawei

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде