Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Исследование MIT объясняет надежность масштабирования языковых моделей

Ученые MIT объяснили надежность законов масштабирования языковых моделей через суперпозицию — перекрытие векторов понятий в ограниченном пространстве. Реальные модели вроде OPT и GPT-2 работают в режиме сильной суперпозиции, где ошибка падает пропорционально ширине. Это предсказывает пределы роста и усложняет интерпретируемость.

3 мая 2026 г.
4 мин
20

Ученые из MIT предложили механистическое объяснение тому, почему производительность больших языковых моделей так стабильно улучшается при увеличении размера.

Один из самых устойчивых результатов в исследованиях ИИ — то, что более крупные модели работают лучше. Удвоение количества параметров, данных для обучения или вычислительных ресурсов приводит к снижению ошибки предсказаний по степенному закону. Эти "законы масштабирования нейросетей" подталкивают к созданию все больших систем. Однако причина их существования до сих пор не была полностью раскрыта.

Исследование, представленное на конференции NeurIPS 2025, связывает это явление с геометрическим свойством, встроенным в сами модели: суперпозицией.

Языковые модели умещают больше понятий, чем позволяет пространство

Языковые модели должны размещать десятки тысяч токенов и еще больше абстрактных значений в внутреннем пространстве всего с несколькими тысячами измерений. Теоретически трехмерное пространство вмещает без помех только три понятия. Большие языковые модели обходят это ограничение, храня множество понятий одновременно в одних и тех же измерениях. Получающиеся векторы немного перекрываются. Такое уплотнение нескольких значений в недостаточно большом пространстве ученые называют суперпозицией.

Раньше многие теории предполагали, что четко представляются только самые частые понятия, а остальное теряется ("слабая суперпозиция"). Команда из MIT, опираясь на упрощенную модель от Anthropic, показала, что это не соответствует реальной работе больших языковых моделей.

Два режима — два механизма объяснения

Исследователи создали сильно упрощенную модель ИИ с регулятором перекрытия хранимых понятий. Это позволило сравнить два крайних случая.

В первом — слабая суперпозиция — модель четко сохраняет только самые распространенные понятия, игнорируя остальные. Ошибка предсказаний здесь возникает в основном из-за редких понятий, которые отбрасываются. Стабильное масштабирование по степенному закону зависит от распределения понятий в обучающих данных. Только если это распределение само по себе степенное, ошибка следует ему. Авторы называют это "степенной закон на входе — степенной на выходе".

Во втором случае — сильная суперпозиция — модель хранит все понятия, слегка перекрывая их векторы. Ошибка теперь вызвана не отсутствием понятий, а шумом от этих перекрытий. Здесь проявляется четкий паттерн: удвоение ширины модели примерно вдвое снижает ошибку, что следует из простой геометрической зависимости (1/m, где m — ширина модели). Распределение понятий в данных уже почти не влияет.

Реальные языковые модели подтверждают гипотезу

Чтобы понять, какой режим доминирует в настоящих системах, команда проанализировала выходные слои открытых моделей: OPT, GPT-2, Qwen2.5 и Pythia — от 100 миллионов до 70 миллиардов параметров. Результат однозначен: все токены представлены, их векторы перекрываются, а сила перекрытий уменьшается точно по предсказанной формуле 1/m. Языковые модели работают в режиме сильной суперпозиции.

Экспериментальный показатель масштабирования составил 0.91, близко к теоретическому 1. Данные Chinchilla от DeepMind дают почти то же — 0.88. По словам ученых, эти законы масштабирования напрямую вытекают из геометрической организации значений в представлениях языковых моделей.

Практические выводы для масштабирования и архитектуры

Работа дает четкие ответы на два ключевых вопроса в исследованиях ИИ. Первый: прекратится ли масштабирование когда-нибудь? Да, когда ширина модели сравняется с размером словаря. Тогда для каждого токена хватит места без перекрытий, и ошибка от сжатых представлений исчезнет. Степенной закон прервется на этой границе.

Второй: можно ли ускорить законы масштабирования, чтобы выжать больше из каждого параметра? Для естественного языка вряд ли — частоты слов распределены довольно равномерно. Но в специализированных задачах с сильно неравномерным распределением понятий возможно более крутое масштабирование.

Это влияет и на проектирование архитектур: модели, стимулирующие суперпозицию, должны лучше работать при том же размере. Пример — nGPT от Nvidia, которая принудительно размещает внутренние векторы на единичной сфере, уплотняя их.

Однако есть подвох: чем сильнее перекрытие понятий, тем сложнее понять, что происходит внутри модели. Это серьезная проблема для механистической интерпретируемости и, соответственно, исследований безопасности ИИ.