ИИ-модели всё ещё часто галлюцинируют: новый бенчмарк

Свежий тест от ученых из Швейцарии и Германии выявил: даже ведущие модели вроде Claude Opus 4.5 с доступом к веб-поиску выдают неверные сведения почти в трети случаев.

Генеральный директор Nvidia Дженсен Хуанг утверждает, что большие языковые модели больше не галлюцинируют, но данные исследований опровергают это. Специалисты из EPFL в Швейцарии, ELLIS Institute Tübingen и Max Planck Institute for Intelligent Systems создали бенчмарк под названием Halluhard. Он оценивает галлюцинации в реалистичных диалогах с несколькими репликами. Выводы показывают: галлюцинации остаются серьезной проблемой, даже при подключенном веб-поиске.

Бенчмарк включает 950 стартовых вопросов по четырем сложным областям знаний: судебные дела, научные запросы, медицинские рекомендации и программирование. Для каждого начального вопроса отдельная пользовательская модель сгенерировала по два уточняющих, чтобы получились правдоподобные трехходовые беседы.

Как указано в исследовании, лучшая протестированная сборка — Claude Opus 4.5 с веб-поиском — всё равно галлюцинировала примерно в 30% случаев. Без поиска этот показатель вырастал до 60%. У GPT-5.2 Thinking с поиском получилось 38,2%.

Китайские модели для рассуждений, такие как Kimi-K2-Thinking и GLM-4.7-Thinking, показали худшие результаты по сравнению с прямыми версиями для рассуждений. Удивительно, что это открытые модели, которые обычно конкурируют с лидерами в других тестах. Похоже, их оптимизировали под высокие баллы в бенчмарках, а не под надежность в реальных сценариях.

Большие модели галлюцинируют реже, но рассуждения помогают ограниченно

Масштабные модели реже выдумывают факты. В семействе GPT-5 средний уровень галлюцинаций падал с 85,1% у GPT-5-nano до 71,8% у GPT-5 и 53,8% у GPT-5.2 Thinking. У Claude тенденция похожая: 79,5% у Haiku, 65,6% у Sonnet и 60% у Opus.

Рассуждения, по сути "долгое обдумывание" перед ответом, снижают галлюцинации, но дополнительная вычислительная мощность для них не всегда спасает. Модели с усиленными рассуждениями генерировали более длинные ответы с большим числом утверждений, что открывало пространство для ошибок.

Заметно, что DeepSeek Reasoner не превзошел DeepSeek Chat, несмотря на способности к рассуждениям. Ученые подчеркивают разрыв между закрытыми и открытыми моделями.

Веб-поиск снижает галлюцинации, но не избавляет от них

Исследователи разделили галлюцинации на два вида. Reference grounding проверяет существование ссылаемого источника. Content grounding — поддержку источником заявленной информации.

Это различие высвечивает типичную ошибку: модель ссылается на реальный источник, но придумывает детали, которых там нет. В качестве примера приводится утверждение о бенчмарке SimpleQA: ссылка верная, а содержание частично вымышленное.

Данные по научным вопросам демонстрируют, что веб-поиск в основном устраняет ошибки ссылок. Для Claude Opus 4.5 доля reference-ошибок упала с 38,6% до 7%. А content-ошибки сократились слабее — с 83,9% до 29,5%. У GPT-5.2 Thinking reference-ошибки снизились до 6,4%, но content-ошибки остались на 51,6%.

Длинные диалоги усугубляют галлюцинации

Ключевое открытие касается поведения в многоходовых беседах: уровень галлюцинаций рос с каждым раундом. Объяснение в том, что модели получают весь предыдущий контекст беседы и опираются на свои ранние промахи. От 3 до 20% неверных ссылок из первого хода повторялись позже. Предыдущие работы уже фиксировали, как длинные разговоры и перегруженные окна контекста ухудшают результаты ИИ.

В задачах по программированию картина обратная: галлюцинации уменьшались в поздних раундах. Скорее всего, потому что задания сужаются — от общего "создай X" к конкретному "исправь функцию". Узкие задачи ограничивают возможности для вымышленных интерпретаций.

На нишевых знаниях модели срываются чаще всего

В эксперименте с 350 короткими вопросами проверили, когда модели галлюцинируют, а когда отказываются отвечать. На полностью выдуманные сущности они чаще воздерживались. А вот на нишевые знания — редкие научные статьи или работы из местных галерей — выдавали галлюцинации.

Объяснение: нишевые данные в обучении встречаются фрагментами. Этого хватает, чтобы среагировать, но не для точного ответа. С совсем неизвестными темами модель хотя бы может признаться в незнании.

Текущие бенчмарки отстают от прогресса моделей

Ученые считают, что нужен новый тест, поскольку старые уже не различают модели. В SimpleQA GPT-4o с Search Preview набирает 90%, а GPT-5 Thinking с поиском — 95,1%. С погрешностью бенчмарка в 3% это потолок.

Halluhard сделан устойчивым к будущим моделям за счет многоходовых диалогов, чувствительных доменов и нишевых знаний. Бенчмарк и код выложены на GitHub, результаты — на странице проекта.

Новый бенчмарк: ИИ-модели часто галлюцинируют

Большие модели галлюцинируют реже, но рассуждения помогают ограниченно

Веб-поиск снижает галлюцинации, но не избавляет от них

Длинные диалоги усугубляют галлюцинации

На нишевых знаниях модели срываются чаще всего

Текущие бенчмарки отстают от прогресса моделей

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

Топ-7 открытых моделей OCR

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде