Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

DeepSeek представила V4-Pro и V4-Flash почти бесплатно

DeepSeek выпустила открытые модели V4-Pro (1,6 трлн параметров) и V4-Flash с контекстом в миллион токенов по ценам ниже OpenAI и Anthropic. Новые архитектуры резко снижают затраты на длинные контексты, а в бенчмарках V4-Pro лидирует среди открытых весов. Модели заточены под агентные задачи и проверены на Nvidia с Huawei.

24 апреля 2026 г.
4 мин
25

Китайская лаборатория DeepSeek выпустила модели V4-Pro и V4-Flash с объемом до 1,6 триллиона параметров и контекстным окном в миллион токенов. Стоимость их использования заметно ниже, чем у OpenAI, Google и Anthropic. Технический доклад содержит сведения о данных для обучения, процессе дистилляции и аппаратном обеспечении.

DeepSeek разместила предварительные версии V4-Pro и V4-Flash в формате открытых весов под лицензией MIT. У V4-Pro 1,6 триллиона общих параметров и 49 миллиардов активных, а у V4-Flash — 284 миллиарда общих и 13 миллиардов активных. Обе модели построены как смесь экспертов и поддерживают контекст в миллион токенов. Их можно найти на Hugging Face.

V4-Pro стала самой крупной моделью с открытыми весами, значительно опередив Kimi K2.6 с 1,1 триллионом параметров и GLM-5.1 с 754 миллиардами. Это первая новая архитектура DeepSeek после V3. Все промежуточные релизы — V3.1, V3.2, R1 и R1 0528 — базировались на исходном дизайне V3 с 685 миллиардами параметров.

Длинные контексты теперь тратят меньше ресурсов

Главное нововведение — гибридная схема внимания, объединяющая сжатие токенов с разреженным вниманием от DeepSeek. Как указано в техническом докладе, для обработки контекста в миллион токенов V4-Pro использует лишь 27 процентов FLOPs и 10 процентов объема KV-кэша по сравнению с V3.2. V4-Flash снижает эти показатели еще сильнее — до 10 процентов FLOPs и 7 процентов KV-кэша.

В бенчмарке GDPval-AA от Artificial Analysis V4-Pro возглавила рейтинг открытых моделей с 1554 очками Elo, обогнав GLM-5.1 (1535) и Kimi K2.6 (1484). Это прибавка около 355 очков Elo относительно V4.2. Однако в докладе отмечают, что V4-Pro немного уступает GPT-5.4 и Gemini-3.1-Pro, отставая от лидирующих моделей примерно на три-шесть месяцев. Полные тесты Artificial Analysis продолжаются, но собственные результаты DeepSeek показывают разрыв. Тем временем OpenAI и Anthropic анонсировали GPT-5.5 и Opus 4.7.

График сравнения бенчмарков DeepSeek V4 с другими моделями

Такие достижения в эффективности позволяют устанавливать низкие тарифы. По данным страницы цен DeepSeek, V4-Flash стоит 0,14 доллара за миллион входных токенов и 0,28 доллара за миллион выходных, что дешевле GPT-5.4 Nano. V4-Pro обойдется в 1,74 и 3,48 доллара соответственно, существенно уступая по цене Gemini 3.1 Pro, GPT-5.5 и Claude Sonnet 4.6.

МодельВвод ($/M)Вывод ($/M)
Deepseek V4 Flash0,140,28
Deepseek V4 Pro1,743,48
GPT-5.42,5015
GPT-5.5530
Claude Sonnet 4.6315
Claude Opus 4.6525
Claude Opus 4.7525

Обучение на гигантских объемах данных с собственной дистилляцией

Разработчики скупятся на детали предобучения: V4-Flash обработали 32 триллиона токенов, V4-Pro — 33 триллиона. Акцент сделали на многоязычных данных, отобранных научных публикациях и технических отчетах, а также данных для агентных сценариев на среднем этапе. Веб-данные очистили от массового автогенерированного и шаблонного контента.

Доклад не упоминает конкретные датасеты или источники лицензий. Подозрения в прямой дистилляции из GPT или Claude не нашли подтверждения, чего и следовало ожидать.

Дистилляция ключевой элемент постобучения. DeepSeek полностью отказалась от прежнего смешанного этапа обучения с подкреплением в пользу дистилляции on-policy. Сначала создали более десяти специализированных внутренних моделей для математики, кода, агентов и следования инструкциям с помощью supervised fine-tuning и GRPO. Затем одна студенческая модель училась у всех этих учителей.

Оптимизация под агентные задачи с проверкой на оборудовании Huawei

DeepSeek адаптировала V4 под агентные процессы. Модели интегрированы с инструментами вроде Claude Code, OpenClaw и OpenCode, их уже применяют внутри компании для агентного программирования. API совместим с интерфейсами OpenAI и Anthropic.

В докладе детальнее описано железо: схема параллелизма экспертов протестирована на Nvidia GPUs и Huawei Ascend NPUs. Открытый мега-ядро MegaMoE работает на CUDA, где DeepSeek заменила библиотеку Nvidia cuBLAS на собственную DeepGEMM.

Отдельно Huawei сообщила, что ее Ascend Supernode на чипах Ascend 950 полностью поддерживает модели V4.