Расширение емкости нейросетей при обучении каждые 5 шагов

Процесс обучения нейронных сетей обычно включает наблюдение за снижением функции потерь и сохранение контрольных точек после каждой эпохи. Это стандартная практика. Однако при измерении динамики обучения с интервалом в 5 шагов вместо эпох выяснилось, что многие устоявшиеся представления требуют пересмотра.

Исходный вопрос, который запустил это исследование: расширяется ли емкость нейронной сети в ходе обучения или она остается неизменной с момента инициализации? До 2019 года считалось, что ответ очевиден — параметры фиксированы, следовательно, и емкость тоже. Но Ansuini et al. открыли нечто невозможное: эффективная размерность представлений увеличивается во время обучения. Yang et al. подтвердили это в 2024 году.

Это открытие переворачивает все с ног на голову. Если пространство обучения расширяется по мере того, как сеть учится, то как можно механистически понять, что именно она делает?

Частые контрольные точки обучения

При обучении глубоких нейронных сетей на 10 000 шагов традиционно устанавливали контрольные точки через 100 или 200 шагов. Измерения с интервалом в 5 шагов создают огромное количество данных, которые сложно обрабатывать. Тем не менее, такие частые контрольные точки раскрывают ценные сведения о механизмах обучения глубоких нейронных сетей.

Частые контрольные точки дают информацию о:

Возможности восстановления от ошибок на ранних этапах обучения (часто это невозможно)
Причинах успеха одних архитектур и неудач других
Оптимальном моменте для анализа интерпретируемости (намек: гораздо раньше, чем предполагалось)
Способах улучшения методик обучения

В рамках прикладного исследовательского проекта динамика обучения глубоких нейронных сетей была измерена с высокой детализацией — каждые 5 шагов вместо 100 или 500. Для этого применялась базовая архитектура многослойного персептрона и тот же набор данных, который использовался на протяжении последних 10 лет.

Схема экспериментальной установки с анализом z-оценок для выявления дискретных переходов — **Рисунок 1.** Экспериментальная установка. Выявление дискретных переходов осуществляется с помощью анализа z-оценок на основе скользящей статистики:

Результаты оказались неожиданными. Глубокие нейронные сети, даже простые по архитектуре, увеличивают свое эффективное пространство параметров в процессе обучения. Предполагалось, что это пространство определяется исключительно архитектурой. На деле же глубокие нейронные сети переживают дискретные переходы — небольшие скачки, повышающие эффективную размерность пространства обучения.

Эффективная размерность паттернов активаций во время обучения, измеренная с помощью стабильного ранга — **Рисунок 2:** Эффективная размерность паттернов активаций в процессе обучения, рассчитанная по стабильному рангу. Выделяются три фазы: начальный коллапс (шаги 0-300), где размерность падает с 2500 до 500; фаза расширения (шаги 300-5000), где размерность растет до 1000; стабилизация (шаги 5000-8000), где размерность стабилизируется. Это указывает, что шаги 0-2000 образуют качественно особый период развития.

На рисунке 2 отображен мониторинг эффективной размерности активаций в ходе обучения. Переходы сосредоточены в первых 25% процесса и скрыты при более редких интервалах контрольных точек (100-1000 шагов). Для их обнаружения потребовалась высокая частота измерений (5 шагов). Кривая демонстрирует любопытное поведение: начальный коллапс отражает перестройку ландшафта потерь, где случайная инициализация уступает место структуре, ориентированной на задачу. Затем следует фаза расширения с постепенным ростом размерности. В интервале 2000-3000 шагов наступает стабилизация, указывающая на пределы емкости архитектуры глубоких нейронных сетей.

Корреляция размерности представлений с функцией потерь и величиной градиента — **Рисунок 3:** Размерность представлений (по стабильному рангу) демонстрирует сильную отрицательную корреляцию с функцией потерь (ρ = −0.951) и умеренную отрицательную корреляцию с величиной градиента (ρ = −0.701). По мере снижения потерь с 2.0 почти до нуля размерность растет с 9.0 до 9.6. Парадоксально, но улучшение производительности связано с расширением, а не сжатием представлений.

Это заставляет по-новому взглянуть на обучение глубоких нейронных сетей, интерпретируемость и проектирование архитектур.

Исследование против расширения

Рассмотрим два сценария:

Сценарий А:
Фиксированная емкость (исследование)

Сценарий Б:
Расширяющаяся емкость
(инновация)

Сеть начинается с фиксированной емкости представлений. Обучение исследует различные области этого предопределенного пространства. Это подобно навигации по карте, существующей с самого начала. Раннее обучение просто означает «еще не нашли удачную область».

Сеть стартует с минимальной емкостью. Обучение создает структуры представлений. Это как строительство дорог во время путешествия — каждая новая дорога открывает доступ к иным целям. Раннее обучение определяет, что станет доступным для обучения позже.

Какой из них верен?

Ответ важен, поскольку при расширяющейся емкости ранние этапы обучения необратимы. Нельзя просто «обучить дольше», чтобы исправить начальные ошибки. Таким образом, интерпретируемость имеет временную шкалу, где признаки формируются последовательно. Понимание этой последовательности критично. Кроме того, проектирование архитектур фокусируется на скорости расширения, а не только на конечной емкости. Наконец, существуют критические периоды: если упустить окно, то и возможность тоже.

Когда требуются частые контрольные точки

Расширение против исследования

Сравнение высокочастотного и низкочастотного сэмплирования в эксперименте — **Рисунок 4:** Высокочастотное сэмплирование против низкочастотного в эксперименте, описанном на рисунке 1. Дискретные переходы выявляются анализом z-оценок со скользящей статистикой. Высокая частота фиксирует быстрые переходы, упущенные грубой измерениями. Это сравнение проверяет влияние временного разрешения на наблюдаемую динамику.

Как видно на рисунках 2 и 3, высокочастотное сэмплирование раскрывает ключевые детали. Можно выделить три фазы:

Фаза 1: Коллапс (шаги 0-300) Сеть перестраивается от случайной инициализации. Размерность резко падает, поскольку ландшафт потерь адаптируется к задаче. Это еще не обучение, а подготовка к нему.

Фаза 2: Расширение (шаги 300-5000)
Размерность стабильно растет. Это расширение емкости. Сеть строит структуры представлений: от простых признаков к сложным, а затем к высшим.

Фаза 3: Стабилизация (шаги 5000-8000) Рост останавливается. Архитектурные ограничения вступают в силу. Сеть уточняет существующее, не создавая новую емкость.

График показывает расширение, а не исследование. Сеть на шаге 5000 способна представлять функции, невозможные на шаге 300, поскольку они просто не существовали.

Емкость расширяется, параметры — нет

Сравнение размерности пространства активаций и весов — **Рисунок 5:** Сравнение пространства активаций и пространства весов.
Размерность пространства весов остается почти постоянной
(9.72-9.79) с одним выявленным «скачком» за 8000 шагов.

Сравнение пространств активаций и весов при высокочастотном сэмплировании выявляет разные динамики. Пространство активаций демонстрирует около 85 дискретных скачков (включая гауссов шум) . Пространство весов — только один. Это одна и та же сеть в одном запуске обучения. Подтверждается, что на шаге 8000 сеть вычисляет функции, недоступные на шаге 500, несмотря на одинаковое количество параметров. Это наиболее убедительное доказательство расширения.

Глубокие нейронные сети инновационируют, генерируя новые варианты пространства параметров во время обучения для представления сложных задач.

Переходы быстрые и ранние

Высокочастотное сэмплирование фиксирует множество переходов, которые пропустила бы низкочастотная система контрольных точек. Эти переходы сосредоточены в начале: две трети из них происходят в первые 2000 шагов — всего 25% от общего времени обучения. Чтобы понять, когда и как формируются признаки, нужно наблюдать именно в интервале 0-2000 шагов, а не на сходимости. К шагу 5000 повествование завершено.

Расширение связано с оптимизацией

Если вернуться к рисунку 3, видно, что по мере снижения потерь размерность растет. Сеть не упрощается с обучением — она усложняется. Размерность сильно коррелирует с потерями (ρ = -0.951) и умеренно — с величиной градиента (ρ = -0.701). Это кажется парадоксальным: улучшение производительности ассоциировано с расширением, а не с сжатием представлений. Можно было ожидать, что сети найдут более простые, сжатые представления по мере обучения. Вместо этого они проникают в пространства большей размерности.

Почему так?

Возможное объяснение: сложные задачи требуют сложных представлений. Сеть не обнаруживает упрощенное решение, а конструирует необходимые изменения в представлениях для разделения классов, распознавания паттернов и обобщения.

Практическое применение

Открыт новый подход к пониманию и отладке обучения глубоких нейронных сетей в любой области.

Зная, когда признаки формируются в обучении, можно анализировать их на этапе кристаллизации, а не реконструировать черный ящик постфактум.

В реальных сценариях развертывания можно отслеживать размерность представлений в реальном времени, выявлять фазы расширения и проводить анализ интерпретируемости на каждой точке перехода. Это точно указывает, когда сеть строит новые структуры представлений — и когда процесс завершен. Метод измерений не зависит от архитектуры: он применим к CNN для зрения, трансформерам для языка, агентам RL для управления или мультимодальным моделям для междоменных задач.

Пример1: Эксперименты по вмешательству для картирования причинно-следственных зависимостей. Нарушение обучения в конкретных окнах и измерение потерянных downstream-возможностей. Если искажение данных на шагах 2000-5000 необратимо повреждает распознавание текстур, а то же искажение на шаге 6000 не влияет, то выявлено время кристаллизации признаков текстур и их зависимости. Это работает аналогично для распознавания объектов в моделях зрения, синтаксической структуры в языковых моделях или дискриминации состояний в агентах RL.

Пример2: Для производственного развертывания непрерывный мониторинг размерности выявляет проблемы представлений во время обучения, когда их еще можно исправить. Если слои перестают расширяться, есть узкие места в архитектуре. Если расширение становится хаотичным, присутствует нестабильность. Если ранние слои насыщаются, а поздние не расширяются, возникают проблемы с потоком информации. Стандартные кривые потерь не покажут эти проблемы до последнего момента — отслеживание размерности выявляет их сразу.

Пример3: Последствия для проектирования архитектур также практичны. Измеряйте динамику расширения в первые 5-10% обучения для кандидатных архитектур. Выбирайте те, что демонстрируют чистые фазовые переходы и структурированное развитие снизу вверх. Такие сети не только эффективнее — они фундаментально более интерпретируемы, поскольку признаки формируются в четких последовательных слоях, а не в запутанной одновременности.

Что дальше

Установлено, что сети расширяют пространство представлений во время обучения, эти переходы можно измерять с высокой детализацией, и это открывает новые пути для интерпретируемости и вмешательств. Логичный вопрос: можно ли применить это в собственной работе?

Полная инфраструктура измерений выпущена в открытый доступ. Включены проверенные реализации для MLP, CNN, ResNet, трансформеров и Vision Transformers с крючками для кастомных архитектур.

Все запускается добавлением трех строк в цикл обучения.

Скриншот кода для добавления в цикл обучения

Репозиторий на GitHub содержит шаблоны экспериментов для обсуждаемых случаев: картирование формирования признаков, протоколы вмешательств, предсказание переноса между архитектурами и настройки мониторинга для производства. Методология измерений проверена. Теперь важно то, что вы откроете, применяя ее в своей области.

Интерпретируемость имеет временную шкалу для всех архитектур нейронных сетей.

Измерение обучения нейронных сетей каждые 5 шагов на 10 000 итераций

Частые контрольные точки обучения

Исследование против расширения

Когда требуются частые контрольные точки

Расширение против исследования

Емкость расширяется, параметры — нет

Переходы быстрые и ранние

Расширение связано с оптимизацией

Практическое применение

Что дальше

Горячее

Как ИИ модели думают: новое исследование

Самые актуальные AI-носители и гаджеты для покупки

Nano Banana Pro от Google меняет ИИ-арт

Обзор Abacus AI: ChatLLM и DeepAgent

White-Box-Coder: ИИ с самопроверкой кода

Сейчас в тренде