NousCoder-14B: открытый ИИ для кодинга на уровне Claude

Стартап Nous Research, поддержанный криптовалютным фондом Paradigm, представил модель для соревновательного программирования. Она конкурирует с крупными закрытыми системами, хотя обучение заняло всего четыре дня на 48 графических процессорах Nvidia B200.

Модель NousCoder-14B выходит в переполненный рынок ИИ-помощников для кодинга. Сейчас особенно актуален Claude Code от Anthropic — инструмент для агентного программирования, который вызывает ажиотаж в соцсетях. Разработчики делятся восторженными отзывами о его возможностях. Эти события показывают, как стремительно развивается создание ПО с помощью ИИ и как остро конкурируют все компании за место в этой ключевой технологии.

На бенчмарке LiveCodeBench v6 модель показывает точность 67,87%. Это на 7,08 процентных пункта лучше базовой Qwen3-14B от Alibaba, как указано в техническом отчете Nous Research.

Я описал задачу Claude Code, и он сгенерировал то, что наша команда строила год. Это система оркестрации распределенных агентов, созданная по трехабзацевому промту.

Такой контраст показателен: Claude Code впечатляет демонстрациями полного цикла разработки, а Nous Research делает ставку на открытые модели, обученные на проверяемых задачах. Прозрачность методов обучения здесь так же важна, как и производительность.

Как Nous Research создала модель кодинга, которую может повторить любой

Отличие релиза NousCoder-14B — полная открытость. Компания выложила не только веса модели, но и среду обучения с подкреплением, набор тестов и фреймворк Atropos. Любой с достаточными вычислениями сможет повторить или развить проект.

Открытый стек Atropos дает инфраструктуру для воспроизводимых исследований на уровне олимпиад по программированию.

Обучение провел Джо Ли, резидент-исследователь Nous Research и бывший участник соревнований. В отчете он сравнил прогресс модели со своим: на Codeforces модель поднялась с 1600–1750 до 2100–2200 рейтинга. Ему это заняло почти два года в 14–16 лет и тысячу задач, модель справилась за четыре дня на 24 тысячах.

Ли отметил: просмотр финального запуска обучения был сюрреалистичным. Но люди пока эффективнее по данным — модель потребовала в 24 раза больше примеров.

Система обучения с подкреплением на 24 тысячах задач

Процесс обучения NousCoder-14B раскрывает продвинутые методы улучшения мышления ИИ через обучение с подкреплением. Используются "проверяемые награды": модель пишет код, его тестируют, выдают сигнал — верно/неверно.

Для масштаба Nous Research применила Modal — облачную платформу для параллельного выполнения кода в песочницах. Каждая из 24 тысяч задач имеет сотни тестов. Проверки учитывают лимиты: 15 секунд и 4 ГБ памяти.

Метод DAPO (Dynamic Sampling Policy Optimization) показал лучшие результаты. Ключ — динамическая выборка: отбрасывают примеры, где модель всегда succeeds или всегда fails, без градиента для обучения.

Применена "итеративная расширения контекста": сначала 32 тысячи токенов, потом 40 тысяч. На оценке — до 80 тысяч, где достигнуты 67,87%.

Пайплайн перекрывает генерацию и верификацию: следующая задача стартует сразу, пока предыдущая проверяется. Асинхронное обучение с параллельными инстансами максимизирует использование GPU.

Недостаток данных, который может затормозить прогресс моделей кодинга

В отчете Ли упоминает: датасет NousCoder-14B охватывает значительную часть доступных проверяемых задач соревновательного программирования в стандартном формате. В этой области подходим к пределу качественных данных.

Всего в интернете задач порядка 24 тысяч, как для обучения. Ли пишет: в домене соревнований качественные данные исчерпываются.

Это отражает общую проблему ИИ: вычисления растут предсказуемо, данные — конечны. Будущие исследования — синтетические данные и data-efficient алгоритмы.

Для кодинга сложнее: нужны задачи с известными решениями для авто-проверки. Синтетика труднее, чем для текста.

Ли предлагает: учить модели генерировать решаемые задачи для self-play, как в играх. "Когда генерация задач решена, self-play станет интересным направлением."

Вклад 65 миллионов долларов в открытый ИИ против гигантов

Nous Research занимает нишу: открытые релизы, конкурирующие с проприетарными. В апреле 2025 привлекли 50 миллионов от Paradigm (Фред Эрсам, сооснователь Coinbase). Итого финансирование — 65 миллионов.

Инвестиции в децентрализованное обучение, платформа Psyche. Ранее: Hermes 4 (превосходит ChatGPT без ограничений), DeepHermes-3 (первый toggle-on reasoning model).

Брендинг в аниме-стиле вызывает скепсис: критики шутят про "anime pfp company" и benchmarkmaxxing. Сравнивают с Nemotron от Nvidia, спрашивают: agentic или one-shot?

Что нужно для дальнейшего улучшения ИИ-инструментов кодинга

Релиз предлагает направления: multi-turn RL — использовать промежуточный фидбек (ошибки компиляции, таймауты) для нескольких итераций, а не финальный бинарный сигнал.

Проблема длины ответов: неверные длиннее, насыщают контекст. Алгоритмы не решили.

Амбициозно: генерация задач и self-play для создания датасетов. "Люди мастерски придумывают задачи, но LLM отстают в креативе."

Модель на Hugging Face под Apache 2.0, с полным стеком Atropos.

Человеку на подъем с 1600 до 2100 на Codeforces ушли два года и тысяча задач. ИИ — 96 часов и 24 тысячи. Скоро модели напишут свои задачи, обучат себя и обгонят человеческие бенчмарки.

Вопрос не в том, умеют ли машины кодить. Вопрос — станут ли они лучше нас как учителя.

NousCoder-14B: открытая модель для кодинга

Как Nous Research создала модель кодинга, которую может повторить любой

Система обучения с подкреплением на 24 тысячах задач

Недостаток данных, который может затормозить прогресс моделей кодинга

Вклад 65 миллионов долларов в открытый ИИ против гигантов

Что нужно для дальнейшего улучшения ИИ-инструментов кодинга

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

5 открытых ИИ-моделей для редактирования изображений

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде