Пролитая энергия ловит галлюцинации LLM без дообучения

Большие языковые модели при галлюцинациях оставляют заметные следы в своих внутренних расчетах. Ученые из Университета Сапиенца в Риме придумали способ без дообучения, который фиксирует эти следы и работает точнее прошлых методов.

Автоматически распознавать галлюцинации в ответе модели всегда было непросто. По сути, большие языковые модели постоянно галлюцинируют: они строят текст на статистических вероятностях, а не на реальных знаниях или фактах. Каждый результат — это управляемая галлюцинация, которая проходит незамеченной, если совпадает с действительностью.

Проблемы возникают, когда модель выдает неверные, вымышленные или противоречивые сведения. В статье для ICLR 2026 команда из Университета Сапиенца предложила свежий взгляд на выявление именно таких опасных галлюцинаций: они изучили финальный слой модели — softmax — под необытым углом.

Этот слой превращает сырые значения модели в вероятности следующего слова. Авторы восприняли его как энергетическую модель — подход из физики, где низкие значения энергии соответствуют высоким шансам.

Авторегрессивные языковые модели угадывают слова по одному. На каждом этапе они оценивают вероятность всех возможных вариантов следующего слова. По математике значения энергии между соседними шагами предсказания обязаны совпадать, поскольку описывают одно и то же с разных сторон.

На деле этого не случается, отмечают исследователи. Они окрестили разницу 'пролитой энергией'. Как указано в статье, она тесно связана с ошибками: при галлюцинациях этот показатель сильно растет по сравнению с верными ответами.

Раньше для поиска ошибок обучали мини-классификаторы на внутренних состояниях модели. Ученые подчеркивают важность фокуса именно на токенах ответа. Например, при вопросе о столице Италии важен только 'Рим' или 'Сидней', а не весь контекст. Такой подход повышает точность обнаружения до 24 процентов.

Пролитая энергия опережает обученные классификаторы на девяти тестах

Метод проверили на девяти стандартных наборах данных: TriviaQA, HotpotQA, IMDB, Math плюс синтетические задачи с 13-значными числами. Использовали LLaMA-3 8B, Mistral-7B, Gemma (1B и 4B), Qwen3-8B — в базовых и дообученных на инструкциях версиях.

Для оценки точности взяли метрику AuROC: она показывает, насколько метод разделяет верные и неверные ответы. 50 процентов — случайный уровень, 100 — идеал. Пролитая энергия обошла простые оценки уверенности вывода и обученные детекторы ошибок.

На Mistral-Instruct средний AuROC составил 77.49 процента против 65.56 для обученных классификаторов и 63.44 для обычной уверенности по логитам. Если просто спросить модель, прав ли ее ответ, результат едва превышает 55 процентов.

Особенно ярко преимущество проявилось при переносе на новые типы задач: обученные модели скатывались к случайным, а пролитая энергия держала стабильность без всякого обучения.

Дообучение на инструкциях, которое учит модель следовать указаниям человека, вредило методам на основе уверенности — такие модели часто бывают излишне самоуверенны. Зато пролитая энергия выигрывала: у LLaMA-3 показатель вырос с 68.69 до 73.16 процента, у Mistral — с 73.94 до 77.49. Проверки на Gemma подтвердили эффективность для моделей разного размера, от 1B до 4B параметров.

Пунктуация и старт предложений иногда дают ложные сигналы

Авторы признают слабые места. Пролитая энергия может ошибочно срабатывать на знаках препинания или первых словах предложений. Там вероятность распределяется по множеству подходящих вариантов, что повышает энергию. Потому так важно точно вычленять токены с ответом.

Метод не останавливает галлюцинации, но дает математически обоснованный инструмент для их поимки прямо в процессе генерации текста. Код открыт на GitHub.

Галлюцинации языковых моделей оставляют 'пролитую энергию' в вычислениях

Пролитая энергия опережает обученные классификаторы на девяти тестах

Пунктуация и старт предложений иногда дают ложные сигналы

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде