OpenAI выпустила GPT-5.4 Pro и Thinking модели

OpenAI выпустила GPT-5.4 — мощную модель для профзадач с контекстом 1 млн токенов и версиями Pro и Thinking. Она бьет рекорды в бенчмарках вроде OSWorld и APEX-Agents, снижает ошибки на 33% и вводит Tool Search для инструментов. Новая оценка подтверждает безопасность цепочки мыслей.

В четверг OpenAI выпустила GPT-5.4 — базовую модель, которую позиционируют как наиболее мощную и экономичную для профессиональных задач. Помимо базовой, модель доступна в варианте для рассуждений (GPT-5.4 Thinking) и в оптимизированной для пиковой производительности (GPT-5.4 Pro).

API-версия поддерживает контекстное окно до 1 миллиона токенов — это максимум среди предложений OpenAI.

Компания выделила рост эффективности по токенам: GPT-5.4 справляется с теми же задачами, тратя их заметно меньше, чем предыдущая модель.

Модель установила рекорды в тестах на использование компьютера — OSWorld-Verified и WebArena Verified. Кроме того, она набрала 83% в тесте OpenAI GDPval, посвященном задачам по работе с знаниями.

GPT-5.4 возглавила таблицу в бенчмарке Mercor APEX-Agents, оценивающем профессиональные умения в юриспруденции и финансах. Об этом заявил CEO Mercor Брендан Фуди.

“[GPT-5.4] отлично справляется с созданием масштабных результатов вроде наборов слайдов, финансовых моделей и юридического анализа. Она обеспечивает ведущие показатели, работая при этом быстрее и дешевле, чем соперничающие фронтир-модели”, — отметил Фуди.

GPT-5.4 развивает подходы OpenAI к снижению галлюцинаций и фактических неточностей. По сравнению с GPT-5.2 модель на 33% реже ошибается в отдельных утверждениях, а в целом ответы содержат на 18% меньше ошибок.

В рамках релиза OpenAI обновила механизм работы с инструментами в API-версии GPT-5.4, внедрив систему Tool Search. Раньше промпты включали полные описания всех доступных инструментов, что жрало токены при их большом количестве. Теперь модель запрашивает определения по требованию, что ускоряет и удешевляет вызовы в системах с множеством опций.

OpenAI провела новую оценку безопасности для цепочки мыслей моделей — внутреннего комментария, объясняющего ход решения многошаговых задач. Специалисты по ИИ-безопасности опасаются, что рассуждающие модели могут искажать эту цепочку, и тесты подтверждают такую возможность в определенных условиях.

Свежая проверка OpenAI демонстрирует: в версии Thinking GPT-5.4 вероятность обмана ниже. Это говорит о том, что модель не умеет скрывать рассуждения, а мониторинг цепочки мыслей остается надежным инструментом безопасности.

OpenAI представила GPT-5.4 с версиями Pro и Thinking

Горячее

TCS и Anthropic выводят Claude в регулируемые отрасли

ИИ помог снизить ошибку мониторинга ледников до 70 метров

Тепловизоры и ИИ спасают серых китов в заливе Сан-Франциско

Исследование: ИИ-агенты находят правильный файл, но упускают точные строки кода

Крис Олах об энциклике Magnifica humanitas: главные тезисы

Сейчас в тренде