Свежий тест от ученых из Швейцарии и Германии выявил: даже ведущие модели вроде Claude Opus 4.5 с доступом к веб-поиску выдают неверные сведения почти в трети случаев.
Генеральный директор Nvidia Дженсен Хуанг утверждает, что большие языковые модели больше не галлюцинируют, но данные исследований опровергают это. Специалисты из EPFL в Швейцарии, ELLIS Institute Tübingen и Max Planck Institute for Intelligent Systems создали бенчмарк под названием Halluhard. Он оценивает галлюцинации в реалистичных диалогах с несколькими репликами. Выводы показывают: галлюцинации остаются серьезной проблемой, даже при подключенном веб-поиске.
Бенчмарк включает 950 стартовых вопросов по четырем сложным областям знаний: судебные дела, научные запросы, медицинские рекомендации и программирование. Для каждого начального вопроса отдельная пользовательская модель сгенерировала по два уточняющих, чтобы получились правдоподобные трехходовые беседы.
Как указано в исследовании, лучшая протестированная сборка — Claude Opus 4.5 с веб-поиском — всё равно галлюцинировала примерно в 30% случаев. Без поиска этот показатель вырастал до 60%. У GPT-5.2 Thinking с поиском получилось 38,2%.
Китайские модели для рассуждений, такие как Kimi-K2-Thinking и GLM-4.7-Thinking, показали худшие результаты по сравнению с прямыми версиями для рассуждений. Удивительно, что это открытые модели, которые обычно конкурируют с лидерами в других тестах. Похоже, их оптимизировали под высокие баллы в бенчмарках, а не под надежность в реальных сценариях.
Большие модели галлюцинируют реже, но рассуждения помогают ограниченно
Масштабные модели реже выдумывают факты. В семействе GPT-5 средний уровень галлюцинаций падал с 85,1% у GPT-5-nano до 71,8% у GPT-5 и 53,8% у GPT-5.2 Thinking. У Claude тенденция похожая: 79,5% у Haiku, 65,6% у Sonnet и 60% у Opus.
Рассуждения, по сути "долгое обдумывание" перед ответом, снижают галлюцинации, но дополнительная вычислительная мощность для них не всегда спасает. Модели с усиленными рассуждениями генерировали более длинные ответы с большим числом утверждений, что открывало пространство для ошибок.
Заметно, что DeepSeek Reasoner не превзошел DeepSeek Chat, несмотря на способности к рассуждениям. Ученые подчеркивают разрыв между закрытыми и открытыми моделями.
Веб-поиск снижает галлюцинации, но не избавляет от них
Исследователи разделили галлюцинации на два вида. Reference grounding проверяет существование ссылаемого источника. Content grounding — поддержку источником заявленной информации.
Это различие высвечивает типичную ошибку: модель ссылается на реальный источник, но придумывает детали, которых там нет. В качестве примера приводится утверждение о бенчмарке SimpleQA: ссылка верная, а содержание частично вымышленное.
Данные по научным вопросам демонстрируют, что веб-поиск в основном устраняет ошибки ссылок. Для Claude Opus 4.5 доля reference-ошибок упала с 38,6% до 7%. А content-ошибки сократились слабее — с 83,9% до 29,5%. У GPT-5.2 Thinking reference-ошибки снизились до 6,4%, но content-ошибки остались на 51,6%.
Длинные диалоги усугубляют галлюцинации
Ключевое открытие касается поведения в многоходовых беседах: уровень галлюцинаций рос с каждым раундом. Объяснение в том, что модели получают весь предыдущий контекст беседы и опираются на свои ранние промахи. От 3 до 20% неверных ссылок из первого хода повторялись позже. Предыдущие работы уже фиксировали, как длинные разговоры и перегруженные окна контекста ухудшают результаты ИИ.
В задачах по программированию картина обратная: галлюцинации уменьшались в поздних раундах. Скорее всего, потому что задания сужаются — от общего "создай X" к конкретному "исправь функцию". Узкие задачи ограничивают возможности для вымышленных интерпретаций.
На нишевых знаниях модели срываются чаще всего
В эксперименте с 350 короткими вопросами проверили, когда модели галлюцинируют, а когда отказываются отвечать. На полностью выдуманные сущности они чаще воздерживались. А вот на нишевые знания — редкие научные статьи или работы из местных галерей — выдавали галлюцинации.
Объяснение: нишевые данные в обучении встречаются фрагментами. Этого хватает, чтобы среагировать, но не для точного ответа. С совсем неизвестными темами модель хотя бы может признаться в незнании.
Текущие бенчмарки отстают от прогресса моделей
Ученые считают, что нужен новый тест, поскольку старые уже не различают модели. В SimpleQA GPT-4o с Search Preview набирает 90%, а GPT-5 Thinking с поиском — 95,1%. С погрешностью бенчмарка в 3% это потолок.
Halluhard сделан устойчивым к будущим моделям за счет многоходовых диалогов, чувствительных доменов и нишевых знаний. Бенчмарк и код выложены на GitHub, результаты — на странице проекта.