Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Даже frontier LLM с GPT-5 теряют до 33% точности в длинных чатах

Команда Philippe Laban протестировала frontier LLM на шести задачах в формате длинных разговоров: модели начиная с GPT-5 теряют до 33% точности. Улучшения есть, но минимальные — в Python-задачах спад всего 10–20%, а реальные сценарии могут усугубить проблему. Помогает только перезапуск чата с предварительным саммари запросов.

вчера
1 мин
25

Новейшее поколение больших языковых моделей начиная с GPT-5 по-прежнему испытывает сложности при выполнении заданий, растянутых на несколько реплик беседы.

График падения точности LLM в многоходовых разговорах по данным Laban et al.
Laban et al.

Команда исследователя Philippe Laban оценила возможности текущих моделей на шести задачах, охватывающих код, базы данных и действия. Более современные варианты проявили себя немного лучше — деградация производительности сократилась с 39 до 33 процентов, — но до устранения проблемы ещё далеко. Самые заметные успехи пришлись на задания с Python, где у отдельных моделей потери ограничились 10–20 процентами. Laban полагает, что в реальных условиях спад может быть сильнее: тесты опирались на базовые симуляции пользователей, а те, кто передумывает во время диалога, спровоцируют более крутое падение.

Корректировки вроде снижения температуры не приносят облегчения, подтверждает оригинальное исследование. Авторы советуют перезагружать разговор при проблемах, предварительно поручив модели обобщить все запросы и положить это обобщение в основу новой беседы.