Ученые из MIT предложили механистическое объяснение тому, почему производительность больших языковых моделей так стабильно улучшается при увеличении размера.
Один из самых устойчивых результатов в исследованиях ИИ — то, что более крупные модели работают лучше. Удвоение количества параметров, данных для обучения или вычислительных ресурсов приводит к снижению ошибки предсказаний по степенному закону. Эти "законы масштабирования нейросетей" подталкивают к созданию все больших систем. Однако причина их существования до сих пор не была полностью раскрыта.
Исследование, представленное на конференции NeurIPS 2025, связывает это явление с геометрическим свойством, встроенным в сами модели: суперпозицией.
Языковые модели умещают больше понятий, чем позволяет пространство
Языковые модели должны размещать десятки тысяч токенов и еще больше абстрактных значений в внутреннем пространстве всего с несколькими тысячами измерений. Теоретически трехмерное пространство вмещает без помех только три понятия. Большие языковые модели обходят это ограничение, храня множество понятий одновременно в одних и тех же измерениях. Получающиеся векторы немного перекрываются. Такое уплотнение нескольких значений в недостаточно большом пространстве ученые называют суперпозицией.
Раньше многие теории предполагали, что четко представляются только самые частые понятия, а остальное теряется ("слабая суперпозиция"). Команда из MIT, опираясь на упрощенную модель от Anthropic, показала, что это не соответствует реальной работе больших языковых моделей.
Два режима — два механизма объяснения
Исследователи создали сильно упрощенную модель ИИ с регулятором перекрытия хранимых понятий. Это позволило сравнить два крайних случая.
В первом — слабая суперпозиция — модель четко сохраняет только самые распространенные понятия, игнорируя остальные. Ошибка предсказаний здесь возникает в основном из-за редких понятий, которые отбрасываются. Стабильное масштабирование по степенному закону зависит от распределения понятий в обучающих данных. Только если это распределение само по себе степенное, ошибка следует ему. Авторы называют это "степенной закон на входе — степенной на выходе".
Во втором случае — сильная суперпозиция — модель хранит все понятия, слегка перекрывая их векторы. Ошибка теперь вызвана не отсутствием понятий, а шумом от этих перекрытий. Здесь проявляется четкий паттерн: удвоение ширины модели примерно вдвое снижает ошибку, что следует из простой геометрической зависимости (1/m, где m — ширина модели). Распределение понятий в данных уже почти не влияет.
Реальные языковые модели подтверждают гипотезу
Чтобы понять, какой режим доминирует в настоящих системах, команда проанализировала выходные слои открытых моделей: OPT, GPT-2, Qwen2.5 и Pythia — от 100 миллионов до 70 миллиардов параметров. Результат однозначен: все токены представлены, их векторы перекрываются, а сила перекрытий уменьшается точно по предсказанной формуле 1/m. Языковые модели работают в режиме сильной суперпозиции.
Экспериментальный показатель масштабирования составил 0.91, близко к теоретическому 1. Данные Chinchilla от DeepMind дают почти то же — 0.88. По словам ученых, эти законы масштабирования напрямую вытекают из геометрической организации значений в представлениях языковых моделей.
Практические выводы для масштабирования и архитектуры
Работа дает четкие ответы на два ключевых вопроса в исследованиях ИИ. Первый: прекратится ли масштабирование когда-нибудь? Да, когда ширина модели сравняется с размером словаря. Тогда для каждого токена хватит места без перекрытий, и ошибка от сжатых представлений исчезнет. Степенной закон прервется на этой границе.
Второй: можно ли ускорить законы масштабирования, чтобы выжать больше из каждого параметра? Для естественного языка вряд ли — частоты слов распределены довольно равномерно. Но в специализированных задачах с сильно неравномерным распределением понятий возможно более крутое масштабирование.
Это влияет и на проектирование архитектур: модели, стимулирующие суперпозицию, должны лучше работать при том же размере. Пример — nGPT от Nvidia, которая принудительно размещает внутренние векторы на единичной сфере, уплотняя их.
Однако есть подвох: чем сильнее перекрытие понятий, тем сложнее понять, что происходит внутри модели. Это серьезная проблема для механистической интерпретируемости и, соответственно, исследований безопасности ИИ.