GPT-5.4 от OpenAI стала самой продвинутой моделью, впервые собравшей в себе программирование, работу с компьютером и логическое мышление.
Компания выпустила GPT-5.4, которую можно использовать в ChatGPT под названием GPT-5.4 Thinking, через API и в Codex. Вместе с ней вышла версия GPT-5.4 Pro для особо трудных заданий. OpenAI называет эту модель самой мощной и экономичной граничной системой для профессиональных нужд.
Теперь модель объединяет навыки программирования из недавно вышедшего GPT-5.3 Codex с усиленным мышлением, агентными процессами и встроенным управлением компьютером. По словам OpenAI, GPT-5.4 — первая основная модель мышления, включившая передовые возможности кодинга от GPT-5.3 Codex. Версии Thinking 5.3 не существовало, был только вариант Codex. Такая нумерация подчеркивает прорыв и облегчает выбор моделей в Codex.
Компания только недавно представила модель 5.3 Instant во вторник, и она пока остается моделью по умолчанию в ChatGPT. В будущем Instant и Thinking будут эволюционировать с разной скоростью.
GPT-5.4 не уступает специалистам по 44 профессиям в бенчмарке GDPval
OpenAI явно продвигает GPT-5.4 как инструмент для офисных задач. В собственном бенчмарке GDPval, оценивающем агентов по 44 профессиям из девяти ключевых отраслей экономики США, GPT-5.4 набирает 83,0 процента, догоняя или обгоняя профессионалов этих сфер. Это на 12,1 процента лучше, чем 70,9 процента у GPT-5.2. Любопытно, что базовая модель 5.4 Thinking здесь опережает версию Pro.
Наибольший прогресс заметен в работе со spreadsheet: для задач моделирования в инвестиционном банкинге GPT-5.4 достигла 87,3 процента против 68,4 процента у предшественника. В создании презентаций люди отдавали предпочтение результатам GPT-5.4 в 68 процентах случаев из-за улучшенной эстетики и разнообразия визуалов. OpenAI также запустила дополнение для ChatGPT к Excel, ориентированное на корпоративных клиентов.
GPT-5.4 демонстрирует стабильный рост и в академических тестах, особенно в абстрактном мышлении: версия Pro набрала 83,3 процента в ARC-AGI-2, в то время как GPT-5.2 Pro показала лишь 54,2 процента.
| Eval | GPT-5.4 | GPT-5.4 Pro | GPT-5.3 Codex | GPT-5.2 | GPT-5.2 Pro |
|---|---|---|---|---|---|
| Frontier Science Research | 33.0% | 36.7% | - | 25.2% | - |
| FrontierMath Tier 1-3 | 47.6% | 50.0% | - | 40.7% | - |
| FrontierMath Tier 4 | 27.1% | 38.0% | - | 18.8% | 31.3% |
| GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% | 93.2% |
| Humanity's Last Exam (no tools) | 39.8% | 42.7% | - | 34.5% | 36.6% |
| Humanity's Last Exam (with tools) | 52.1% | 58.7% | - | 45.5% | 50.0% |
| ARC-AGI-1 (Verified) | 93.7% | 94.5% | - | 86.2% | 90.5% |
| ARC-AGI-2 (Verified) | 73.3% | 83.3% | - | 52.9% | 54.2% (high) |
OpenAI сообщает об еще большем снижении галлюцинаций: вероятность ошибок в отдельных утверждениях уменьшилась на 33 процента, а в полных ответах — на 18 процентов по сравнению с GPT-5.2.
"Мы не видим никаких ограничений, и ожидаем, что возможности ИИ продолжат резко расти в этом году", — пишет исследователь OpenAI Ноам Браун, один из авторов прорыва в моделях мышления компании OpenAI.
GPT-5.4 обходит людей в навигации по десктопным средам
GPT-5.4 — первая универсальная модель OpenAI со встроенным управлением компьютером. Агенты работают со скриншотами, мышью и клавиатурой, самостоятельно справляясь со сложными задачами в веб-сайтах и программах. Раньше такая функция была только в режиме агента ChatGPT, но действовала ненадежно и почти не использовалась.
Теперь ситуация меняется. В бенчмарке OSWorld Verified, проверяющем перемещение в десктопных окружениях, GPT-5.4 достигла успеха в 75,0 процентах случаев. У GPT-5.2 было 47,3 процента, а люди набрали 72,4 процента — модель впервые обошла человеческий уровень.
Визуальное восприятие тоже усилилось. OpenAI ввела новый режим детального разбора изображений до 10,24 миллиона пикселей в полном разрешении. В бенчмарке OmniDocBench для анализа документов средняя ошибка снизилась с 0,140 до 0,109.
Прогресс в кодинге скромный, зато скорость выросла
В программировании GPT-5.4 набирает 57,7 процента в SWE-Bench Pro, чуть лучше, чем 56,8 процента у GPT-5.3 Codex и 55,6 процента у GPT-5.2. Главное преимущество — в скорости: режим "/fast" в Codex ускоряет генерацию токенов до 1,5 раза без потери качества.
Агентный поиск в вебе тоже улучшился. В BrowseComp, тестирующем поиск редкой информации, GPT-5.4 показывает 82,7 процента, а Pro — 89,3 процента против 65,8 процента у GPT-5.2.
| GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |
|---|---|---|---|
| GDPval (wins or ties) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (Public) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
Чтобы продемонстрировать комбинацию кодинга и управления ПК, OpenAI выпустила экспериментальный навык Codex "Playwright (Interactive)" для визуальной отладки веб- и Electron-приложений. В демонстрации GPT-5.4 по одному запросу создала симулятор изометрического парка аттракционов с расстановкой путей, поиском маршрутов для посетителей и очередями.
Tool Search сокращает расход токенов почти вдвое
Одно из ключевых нововведений в API — "Tool Search". Раньше все описания инструментов загружались в запрос целиком, тратя тысячи лишних токенов в больших наборах. GPT-5.4 получает только краткий список доступных инструментов и запрашивает полные описания по мере надобности.
По данным OpenAI, это снизило потребление токенов на 47 процентов в тесте на 250 задачах из MCP Atlas при сохранении точности. Для серверов MCP с десятками тысяч токенов в описаниях инструментов экономия окажется существенной.
Процесс мышления стал эффективнее. В ChatGPT GPT-5.4 Thinking показывает предварительный план для сложных запросов. Пользователи вмешиваются с инструкциями или корректировками до завершения ответа, сокращая обмен репликами. Функция работает на chatgpt.com и Android, для iOS — скоро.
GPT-5.4 в Codex экспериментально поддерживает контекстное окно до одного миллиона токенов, что полезно для длительного планирования и выполнения. Однако избыток или неточная информация по-прежнему снижает надежность модели .
Цены на токены выросли, но эффективность покрывает расходы
GPT-5.4 дороже предшественника. OpenAI подчеркивает, что как самая токеноэкономичная модель мышления она тратит меньше токенов на те же задания, компенсируя повышенную стоимость за токен.
| API model | Input price | Cached input price | Output price |
|---|---|---|---|
| gpt-5.2 | $1.75 / M tokens | $0.175 / M tokens | $14 / M tokens |
| gpt-5.4 | $2.50 / M tokens | $0.25 / M tokens | $15 / M tokens |
| gpt-5.2-pro | $21 / M tokens | - | $168 / M tokens |
| gpt-5.4-pro | $30 / M tokens | - | $180 / M tokens |
В ChatGPT GPT-5.4 Thinking доступна для пользователей Plus, Team и Pro, заменив GPT-5.2 Thinking. Старая модель пробудет три месяца в разделе "Legacy Models", после чего исчезнет 5 июня 2026 года. Корпоративные и образовательные пользователи активируют доступ через настройки админа. GPT-5.4 Pro — для Pro и Enterprise.
Оценка кибербезопасности впервые достигла "High Capability" для универсальной модели
В Model Card выделяется прогресс в кибербезопасности. Как и предшествующий специализированный GPT-5.3 Codex, GPT-5.4 получила статус "High Capability". Но GPT-5.4 Thinking — первая общая модель мышления с такой классификацией, что расширяет её применение и уязвимости.
По рамкам Preparedness Framework OpenAI, уровень "High" означает способность снимать барьеры для кибератак, например автоматизировать полные атаки на защищенные цели или самостоятельно находить и использовать релевантные уязвимости. Выше только "Critical", где модель находит zero-day в укрепленных системах без помощи и создает новые стратегии атак.
OpenAI внедрила новую защиту для 5.4: вместо переключения подозрительных пользователей на слабую модель применяются блокировщики на уровне сообщений с двухэтапным мониторингом — классификатор тем и ИИ-аналитик безопасности. В стандартных тестах безопасность на уровне GPT-5.2 Thinking, но устойчивость к jailbreak выросла по сравнению с GPT-5.1 Thinking.