Стартап Nous Research, поддержанный криптовалютным фондом Paradigm, представил модель для соревновательного программирования. Она конкурирует с крупными закрытыми системами, хотя обучение заняло всего четыре дня на 48 графических процессорах Nvidia B200.
Модель NousCoder-14B выходит в переполненный рынок ИИ-помощников для кодинга. Сейчас особенно актуален Claude Code от Anthropic — инструмент для агентного программирования, который вызывает ажиотаж в соцсетях. Разработчики делятся восторженными отзывами о его возможностях. Эти события показывают, как стремительно развивается создание ПО с помощью ИИ и как остро конкурируют все компании за место в этой ключевой технологии.
На бенчмарке LiveCodeBench v6 модель показывает точность 67,87%. Это на 7,08 процентных пункта лучше базовой Qwen3-14B от Alibaba, как указано в техническом отчете Nous Research.
Я описал задачу Claude Code, и он сгенерировал то, что наша команда строила год. Это система оркестрации распределенных агентов, созданная по трехабзацевому промту.
Такой контраст показателен: Claude Code впечатляет демонстрациями полного цикла разработки, а Nous Research делает ставку на открытые модели, обученные на проверяемых задачах. Прозрачность методов обучения здесь так же важна, как и производительность.
Как Nous Research создала модель кодинга, которую может повторить любой
Отличие релиза NousCoder-14B — полная открытость. Компания выложила не только веса модели, но и среду обучения с подкреплением, набор тестов и фреймворк Atropos. Любой с достаточными вычислениями сможет повторить или развить проект.
Открытый стек Atropos дает инфраструктуру для воспроизводимых исследований на уровне олимпиад по программированию.
Обучение провел Джо Ли, резидент-исследователь Nous Research и бывший участник соревнований. В отчете он сравнил прогресс модели со своим: на Codeforces модель поднялась с 1600–1750 до 2100–2200 рейтинга. Ему это заняло почти два года в 14–16 лет и тысячу задач, модель справилась за четыре дня на 24 тысячах.
Ли отметил: просмотр финального запуска обучения был сюрреалистичным. Но люди пока эффективнее по данным — модель потребовала в 24 раза больше примеров.
Система обучения с подкреплением на 24 тысячах задач
Процесс обучения NousCoder-14B раскрывает продвинутые методы улучшения мышления ИИ через обучение с подкреплением. Используются "проверяемые награды": модель пишет код, его тестируют, выдают сигнал — верно/неверно.
Для масштаба Nous Research применила Modal — облачную платформу для параллельного выполнения кода в песочницах. Каждая из 24 тысяч задач имеет сотни тестов. Проверки учитывают лимиты: 15 секунд и 4 ГБ памяти.
Метод DAPO (Dynamic Sampling Policy Optimization) показал лучшие результаты. Ключ — динамическая выборка: отбрасывают примеры, где модель всегда succeeds или всегда fails, без градиента для обучения.
Применена "итеративная расширения контекста": сначала 32 тысячи токенов, потом 40 тысяч. На оценке — до 80 тысяч, где достигнуты 67,87%.
Пайплайн перекрывает генерацию и верификацию: следующая задача стартует сразу, пока предыдущая проверяется. Асинхронное обучение с параллельными инстансами максимизирует использование GPU.
Недостаток данных, который может затормозить прогресс моделей кодинга
В отчете Ли упоминает: датасет NousCoder-14B охватывает значительную часть доступных проверяемых задач соревновательного программирования в стандартном формате. В этой области подходим к пределу качественных данных.
Всего в интернете задач порядка 24 тысяч, как для обучения. Ли пишет: в домене соревнований качественные данные исчерпываются.
Это отражает общую проблему ИИ: вычисления растут предсказуемо, данные — конечны. Будущие исследования — синтетические данные и data-efficient алгоритмы.
Для кодинга сложнее: нужны задачи с известными решениями для авто-проверки. Синтетика труднее, чем для текста.
Ли предлагает: учить модели генерировать решаемые задачи для self-play, как в играх. "Когда генерация задач решена, self-play станет интересным направлением."
Вклад 65 миллионов долларов в открытый ИИ против гигантов
Nous Research занимает нишу: открытые релизы, конкурирующие с проприетарными. В апреле 2025 привлекли 50 миллионов от Paradigm (Фред Эрсам, сооснователь Coinbase). Итого финансирование — 65 миллионов.
Инвестиции в децентрализованное обучение, платформа Psyche. Ранее: Hermes 4 (превосходит ChatGPT без ограничений), DeepHermes-3 (первый toggle-on reasoning model).
Брендинг в аниме-стиле вызывает скепсис: критики шутят про "anime pfp company" и benchmarkmaxxing. Сравнивают с Nemotron от Nvidia, спрашивают: agentic или one-shot?
Что нужно для дальнейшего улучшения ИИ-инструментов кодинга
Релиз предлагает направления: multi-turn RL — использовать промежуточный фидбек (ошибки компиляции, таймауты) для нескольких итераций, а не финальный бинарный сигнал.
Проблема длины ответов: неверные длиннее, насыщают контекст. Алгоритмы не решили.
Амбициозно: генерация задач и self-play для создания датасетов. "Люди мастерски придумывают задачи, но LLM отстают в креативе."
Модель на Hugging Face под Apache 2.0, с полным стеком Atropos.
Человеку на подъем с 1600 до 2100 на Codeforces ушли два года и тысяча задач. ИИ — 96 часов и 24 тысячи. Скоро модели напишут свои задачи, обучат себя и обгонят человеческие бенчмарки.
Вопрос не в том, умеют ли машины кодить. Вопрос — станут ли они лучше нас как учителя.