Параметры в LLM: простое объяснение

Что такое параметр?

Параметры больших языковых моделей часто сравнивают с рукоятками и рычагами, которые определяют поведение системы. Представьте огромную пинбольную машину размером с планету: шарики отскакивают от миллиардов лопастей и барьеров, настроенных с точностью. Измените настройки — и траектории шариков сильно поменяются.

Модель GPT-3 от OpenAI, вышедшая в 2020 году, содержала 175 миллиардов параметров. Последняя LLM от Google DeepMind, Gemini 3, имеет не меньше триллиона — по некоторым оценкам, ближе к 7 триллионам, — но компания молчит об этом. С учетом жесткой конкуренции разработчики ИИ больше не раскрывают детали архитектуры.

Основы остаются неизменными для всех моделей: параметры лежат в основе удивительных возможностей LLM. За яркими метафорами скрывается простая математика — разберемся подробнее.

Как параметры получают значения?

Коротко: благодаря алгоритму обучения. На старте каждый параметр получает случайное число. Дальше следует цепочка расчетов — шаги обучения, — которые корректируют эти значения. Сначала модель ошибается. Алгоритм анализирует ошибку, проходит по всем параметрам и подстраивает их, чтобы минимизировать промахи в следующий раз. Процесс повторяется, пока модель не достигнет нужного уровня. Тогда обучение завершается, значения фиксируются.

Просто на словах...

На деле из-за гигантских объемов данных и параметров требуется уйма шагов и вычислений. В средней модели вроде GPT-3 с 175 миллиардами параметров каждый обновляется десятки тысяч раз. Итого — квадриллионы (число с 15 нулями) операций. Поэтому обучение LLM жрет столько энергии: тысячи мощных ускорителей работают месяцами без остановки.

А зачем столько параметров?

В LLM три вида параметров, которые настраиваются обучением: эмбеддинги, веса и смещения. Разберем по порядку.

Что такое эмбеддинги?

Эмбеддинг — это числовое описание слова или токена (части слова) из словаря модели. Словарь, содержащий сотни тысяч уникальных токенов, задают до начала обучения. Изначально слова пустые — смысл рождается в процессе.

Обучаясь, модель присваивает каждому токену вектор чисел, отражающий его значение относительно других на основе примеров из данных.

Слово заменяется кодом?

Да, но сложнее. Эмбеддинг — список чисел, где каждое отражает грань смысла, вычлененную из данных. Длина списка — выбор разработчиков. Часто 4096.

Каждое слово — вектор из 4096 чисел?

Верно. Каждое число в векторе настраивается обучением. Такая модель имеет размерность 4096.

Почему именно 4096?

Число странное, но LLM оптимизированы под степени двойки: 2, 4, 8, 16, 32, 64 и дальше. 4096 — баланс между мощью и скоростью. Меньше размерностей — слабее модель; больше — дороже и медленнее.

Больше чисел позволяет улавливать тонкие оттенки: контексты, коннотации, связи со словами.

В феврале OpenAI представила GPT-4.5 — свою самую крупную модель (оценки параметров свыше 10 триллионов). Исследователь Ник Райдер из OpenAI отметил: крупные модели лучше распознают нюансы разговора, вроде эмоциональных сигналов, таких как враждебность в речи. «Все эти тонкие паттерны человеческого общения — вот что схватывают растущие модели».

В итоге слова LLM кодируются в многомерном пространстве. Слово «стол» ближе к «стул», чем к «астронавт»; «астронавт» — к «луна» и «Маск». А «престидижитация» где-то вдали. Не в 3D, а в 4096-мерном.

Головокружение...

LLM сжимает весь интернет в грандиозную математическую конструкцию с переплетенной информацией. Это объясняет их чудеса — и полную непрозрачность.

Эмбеддинги разобрали. А веса?

Веса — параметры силы связей между частями модели, ключевой инструмент настройки поведения. Они задействуются при обработке текста.

Модель берет предложение, находит эмбеддинги слов и пропускает их через трансформеры — сети для последовательностей вроде текста. Каждое слово учитывает все остальные.

Эмбеддинг несет смысл без контекста. Трансформеры с весами адаптируют его под предложение (умножая на веса других слов).

А смещения?

Смещения дополняют веса. Веса устанавливают пороги активации частей модели. Смещения сдвигают эти пороги, позволяя слабым сигналам запускать цепочку (добавляются к эмбеддингу, не умножаются).

Представьте шумную комнату: веса усиливают громкие голоса, смещения поднимают тихие. Так модель выжимает максимум из текста. Оба типа параметров шлифуются обучением.

Нейроны тоже параметры?

Нет, нейроны организуют математику — держат веса и смещения, соединены путями. Основано на биологических нейронах: сигнал от одного запускает следующий.

Каждый нейрон хранит одно смещение и веса по всем размерностям. При 4096 — 4096 весов плюс смещение.

Нейроны в слоях; в LLM каждый в слое связан со всеми в следующем. GPT-3 (175 млрд параметров) — около 100 слоев по десятки тысяч нейронов. Каждый нейрон делает тысячи операций.

Опять кружится голова. Столько математики.

Да, огромный объем.

Как все сходится? Как модель из слов генерирует новые?

Эмбеддинг текста проходит слои: в каждом обновляется вычислениями с весами и смещениями нейронов. К финалу захватывает весь смысл, нюансы, контекст.

Этот финальный вектор определяет вероятность следующего слова: модель ранжирует весь словарь и берет лидера (с нюансами, см. ниже).

Слово добавляется, процесс повторяется, пока не дойдет до маркера конца.

И все?

Почти...

Продолжай.

Разработчики задают гиперпараметры: temperature, top-p, top-k.

Выдумываешь.

Temperature регулирует креативность: низкая — вероятные слова, вывод фактами; высокая — неожиданные, живые.

Top-p и top-k ограничивают выбор: случай из топа вероятных, а не только лидер. Влияет на стиль: эксцентричный или надежный.

Последний вопрос! Шум вокруг маленьких моделей, бьющих крупные. Как?

Горячая тема в ИИ. Способы разные. Объем данных ключевой: недодатка — параметры не раскрываются; малая модель на равных данных обгонит большую.

Переобучение: больше данных, чем думали, улучшает. Llama 2 (70 млрд параметров) на 2 триллионах слов; Llama 3 (8 млрд) на 15 триллионах — и лучше.

Дистилляция: большая модель учит малую на данных плюс своих внутренних расчетах. Знания перетекут.

Эра монолитов уходит. GPT-5, Gemini 3 — как «смесь экспертов»: активируют нужные модули. Мощь большой + скорость маленькой.

Исследователи ищут, как выжать максимум из параметров. Масштабирование слабеет: важнее, как использовать, а не сколько.

Можно взглянуть на параметр?

Хотите увидеть? Вот эмбеддинг.

Параметры LLM: что это и как они работают