GPT-5 и LLM теряют 33% точности в длинных чатах

Даже frontier LLM с GPT-5 теряют до 33% точности в длинных чатах

Команда Philippe Laban протестировала frontier LLM на шести задачах в формате длинных разговоров: модели начиная с GPT-5 теряют до 33% точности. Улучшения есть, но минимальные — в Python-задачах спад всего 10–20%, а реальные сценарии могут усугубить проблему. Помогает только перезапуск чата с предварительным саммари запросов.

28 февраля 2026 г.

1 мин

Новейшее поколение больших языковых моделей начиная с GPT-5 по-прежнему испытывает сложности при выполнении заданий, растянутых на несколько реплик беседы.

График падения точности LLM в многоходовых разговорах по данным Laban et al. — Laban et al.

Команда исследователя Philippe Laban оценила возможности текущих моделей на шести задачах, охватывающих код, базы данных и действия. Более современные варианты проявили себя немного лучше — деградация производительности сократилась с 39 до 33 процентов, — но до устранения проблемы ещё далеко. Самые заметные успехи пришлись на задания с Python, где у отдельных моделей потери ограничились 10–20 процентами. Laban полагает, что в реальных условиях спад может быть сильнее: тесты опирались на базовые симуляции пользователей, а те, кто передумывает во время диалога, спровоцируют более крутое падение.

Корректировки вроде снижения температуры не приносят облегчения, подтверждает оригинальное исследование. Авторы советуют перезагружать разговор при проблемах, предварительно поручив модели обобщить все запросы и положить это обобщение в основу новой беседы.

Даже frontier LLM с GPT-5 теряют до 33% точности в длинных чатах

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Топ-5 CLI-инструментов для агентного кодирования

Сейчас в тренде