DeepSeek: mHC стабилизирует обучение ИИ-моделей

Почему расширенные связи нарушают стабильность обучения

Обычные остаточные связи пропускают сигналы по сети практически без изменений. Именно это обеспечивает надежность процесса: ошибки, на которых учится модель, проходят сквозь все слои без помех, а обновления параметров остаются в допустимых пределах.

Hyper-Connections устроены по-другому. Сигналы здесь проходят через обучаемые матрицы, которые их меняют. Такой подход выбран не случайно — он позволяет сети улавливать более сложные зависимости. Но сложности начинаются, когда преобразования множатся слой за слоем. Каждый из них способен дополнительно усиливать или приглушать сигналы, вместо того чтобы передавать их в исходном виде.

Команда исследователей отследила проблему на модели с 27 миллиардами параметров: на отметке около 12 000 шагов обучения у HC фиксируется резкий рост потерь — метрики ошибки, которую модель пытается минимизировать. Подобный всплеск указывает на потерю контроля над обучением, градиенты — сигналы для корректировки — начинают вести себя хаотично.

Виновник, как выяснилось, — чрезмерное усиление сигналов в процессе их путешествия по сети. Для оценки используется показатель, который в норме держится близко к 1: сигнал достигает конца с той же интенсивностью, что и в начале. У HC он подскакивает до 3000, то есть сигналы вырастают в тысячи раз, и это приводит к неизбежным сбоям.

Кроме того, HC заметно нагружает память. Поток данных расширяется примерно в 4 раза, и объем обращений к памяти растет пропорционально.

Математические ограничения для контроля сигналов

Основная фишка mHC — жесткие математические рамки для обучаемых матриц связей. Матрицы строятся так, чтобы все элементы были неотрицательными, а суммы по строкам и столбцам точно равнялись 1.

На деле это работает просто: при умножении такой матрицы на сигнал получается взвешенная комбинация входных значений. Поскольку веса положительны и в сумме дают единицу, сигналы просто перераспределяются, но не раздуваются бесконтрольно, даже после цепочки таких операций.

Чтобы привести любую матрицу к нужному виду, применяется итеративный алгоритм Sinkhorn-Knopp. Он поочередно нормализует строки и столбцы, пока суммы не станут равны 1. В реализации задействовано 20 итераций — тесты подтвердили, что это оптимальный баланс между точностью и расходами на вычисления.

Итог: усиление сигналов падает с 3000 до примерно 1,6 — снижение в три порядка. Сигналы сохраняют исходную мощность, а обучение не сходит с рельсов.

Стабильность дает преимущество в результатах

Разработчики проверили mHC на моделях с 3, 9 и 27 миллиардами параметров на базе архитектуры DeepSeek-V3. Модель на 27B демонстрирует ровные кривые обучения без обрывов, характерных для HC.

В бенчмарках mHC обходит и базовую версию, и HC почти по всем позициям. На BBH, где проверяется сложное мышление, mHC набирает 51,0%, против 48,9% у HC и 43,8% у базовой. На DROP, сочетающем понимание текста и числовые расчеты, показатель mHC — 53,9%, тогда как у HC 51,6%, а у базовой — 47,0%. Выигрыш над HC невелик — 2,1 и 2,3 процентных пункта, — зато стабильность на голову выше.

Эксперименты по масштабированию подтверждают: плюсы mHC сохраняются при разных размерах моделей и объемах обучения. Отрыв от базовой линии снижается совсем чуть-чуть по мере роста моделей.

Оптимизации снижают дополнительные затраты

Чтобы mHC работала на практике, авторы вложили много сил в доработки кода. Объединив операции, удалось сократить обращения к памяти. Выборочный метод сохраняет только ключевые промежуточные данные, а остальное пересчитывает по мере надобности, что экономит ресурсы.

Особо проработана совместимость с DualPipe — техникой из DeepSeek-V3 для распределения обучения по множеству GPU. Обмен данными между блоками вычислений теперь идет параллельно с основными расчетами.

В итоге mHC добавляет всего 6,7% накладных расходов по сравнению со стандартной архитектурой. Учитывая выигрыш в стабильности и производительности, такая цена вполне оправданна.

Авторы рассматривают mHC как базу для новых исследований топологий сетей. Фреймворк открывает путь к различным математическим ограничениям, заточенным под конкретные задачи обучения.

Новая техника DeepSeek стабилизирует ИИ-модели

Почему расширенные связи нарушают стабильность обучения

Математические ограничения для контроля сигналов

Стабильность дает преимущество в результатах

Оптимизации снижают дополнительные затраты

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде