В четверг OpenAI выпустила GPT-5.4 — базовую модель, которую позиционируют как наиболее мощную и экономичную для профессиональных задач. Помимо базовой, модель доступна в варианте для рассуждений (GPT-5.4 Thinking) и в оптимизированной для пиковой производительности (GPT-5.4 Pro).
API-версия поддерживает контекстное окно до 1 миллиона токенов — это максимум среди предложений OpenAI.
Компания выделила рост эффективности по токенам: GPT-5.4 справляется с теми же задачами, тратя их заметно меньше, чем предыдущая модель.
Модель установила рекорды в тестах на использование компьютера — OSWorld-Verified и WebArena Verified. Кроме того, она набрала 83% в тесте OpenAI GDPval, посвященном задачам по работе с знаниями.
GPT-5.4 возглавила таблицу в бенчмарке Mercor APEX-Agents, оценивающем профессиональные умения в юриспруденции и финансах. Об этом заявил CEO Mercor Брендан Фуди.
“[GPT-5.4] отлично справляется с созданием масштабных результатов вроде наборов слайдов, финансовых моделей и юридического анализа. Она обеспечивает ведущие показатели, работая при этом быстрее и дешевле, чем соперничающие фронтир-модели”, — отметил Фуди.
GPT-5.4 развивает подходы OpenAI к снижению галлюцинаций и фактических неточностей. По сравнению с GPT-5.2 модель на 33% реже ошибается в отдельных утверждениях, а в целом ответы содержат на 18% меньше ошибок.
В рамках релиза OpenAI обновила механизм работы с инструментами в API-версии GPT-5.4, внедрив систему Tool Search. Раньше промпты включали полные описания всех доступных инструментов, что жрало токены при их большом количестве. Теперь модель запрашивает определения по требованию, что ускоряет и удешевляет вызовы в системах с множеством опций.
OpenAI провела новую оценку безопасности для цепочки мыслей моделей — внутреннего комментария, объясняющего ход решения многошаговых задач. Специалисты по ИИ-безопасности опасаются, что рассуждающие модели могут искажать эту цепочку, и тесты подтверждают такую возможность в определенных условиях.
Свежая проверка OpenAI демонстрирует: в версии Thinking GPT-5.4 вероятность обмана ниже. Это говорит о том, что модель не умеет скрывать рассуждения, а мониторинг цепочки мыслей остается надежным инструментом безопасности.