Почему расширенные связи нарушают стабильность обучения
Обычные остаточные связи пропускают сигналы по сети практически без изменений. Именно это обеспечивает надежность процесса: ошибки, на которых учится модель, проходят сквозь все слои без помех, а обновления параметров остаются в допустимых пределах.
Hyper-Connections устроены по-другому. Сигналы здесь проходят через обучаемые матрицы, которые их меняют. Такой подход выбран не случайно — он позволяет сети улавливать более сложные зависимости. Но сложности начинаются, когда преобразования множатся слой за слоем. Каждый из них способен дополнительно усиливать или приглушать сигналы, вместо того чтобы передавать их в исходном виде.
Команда исследователей отследила проблему на модели с 27 миллиардами параметров: на отметке около 12 000 шагов обучения у HC фиксируется резкий рост потерь — метрики ошибки, которую модель пытается минимизировать. Подобный всплеск указывает на потерю контроля над обучением, градиенты — сигналы для корректировки — начинают вести себя хаотично.
Виновник, как выяснилось, — чрезмерное усиление сигналов в процессе их путешествия по сети. Для оценки используется показатель, который в норме держится близко к 1: сигнал достигает конца с той же интенсивностью, что и в начале. У HC он подскакивает до 3000, то есть сигналы вырастают в тысячи раз, и это приводит к неизбежным сбоям.
Кроме того, HC заметно нагружает память. Поток данных расширяется примерно в 4 раза, и объем обращений к памяти растет пропорционально.
Математические ограничения для контроля сигналов
Основная фишка mHC — жесткие математические рамки для обучаемых матриц связей. Матрицы строятся так, чтобы все элементы были неотрицательными, а суммы по строкам и столбцам точно равнялись 1.
На деле это работает просто: при умножении такой матрицы на сигнал получается взвешенная комбинация входных значений. Поскольку веса положительны и в сумме дают единицу, сигналы просто перераспределяются, но не раздуваются бесконтрольно, даже после цепочки таких операций.
Чтобы привести любую матрицу к нужному виду, применяется итеративный алгоритм Sinkhorn-Knopp. Он поочередно нормализует строки и столбцы, пока суммы не станут равны 1. В реализации задействовано 20 итераций — тесты подтвердили, что это оптимальный баланс между точностью и расходами на вычисления.
Итог: усиление сигналов падает с 3000 до примерно 1,6 — снижение в три порядка. Сигналы сохраняют исходную мощность, а обучение не сходит с рельсов.
Стабильность дает преимущество в результатах
Разработчики проверили mHC на моделях с 3, 9 и 27 миллиардами параметров на базе архитектуры DeepSeek-V3. Модель на 27B демонстрирует ровные кривые обучения без обрывов, характерных для HC.
В бенчмарках mHC обходит и базовую версию, и HC почти по всем позициям. На BBH, где проверяется сложное мышление, mHC набирает 51,0%, против 48,9% у HC и 43,8% у базовой. На DROP, сочетающем понимание текста и числовые расчеты, показатель mHC — 53,9%, тогда как у HC 51,6%, а у базовой — 47,0%. Выигрыш над HC невелик — 2,1 и 2,3 процентных пункта, — зато стабильность на голову выше.
Эксперименты по масштабированию подтверждают: плюсы mHC сохраняются при разных размерах моделей и объемах обучения. Отрыв от базовой линии снижается совсем чуть-чуть по мере роста моделей.
Оптимизации снижают дополнительные затраты
Чтобы mHC работала на практике, авторы вложили много сил в доработки кода. Объединив операции, удалось сократить обращения к памяти. Выборочный метод сохраняет только ключевые промежуточные данные, а остальное пересчитывает по мере надобности, что экономит ресурсы.
Особо проработана совместимость с DualPipe — техникой из DeepSeek-V3 для распределения обучения по множеству GPU. Обмен данными между блоками вычислений теперь идет параллельно с основными расчетами.
В итоге mHC добавляет всего 6,7% накладных расходов по сравнению со стандартной архитектурой. Учитывая выигрыш в стабильности и производительности, такая цена вполне оправданна.
Авторы рассматривают mHC как базу для новых исследований топологий сетей. Фреймворк открывает путь к различным математическим ограничениям, заточенным под конкретные задачи обучения.