OpenAI выпустила GPT-5.4 Thinking и Pro с кодингом

GPT-5.4 от OpenAI стала самой продвинутой моделью, впервые собравшей в себе программирование, работу с компьютером и логическое мышление.

Компания выпустила GPT-5.4, которую можно использовать в ChatGPT под названием GPT-5.4 Thinking, через API и в Codex. Вместе с ней вышла версия GPT-5.4 Pro для особо трудных заданий. OpenAI называет эту модель самой мощной и экономичной граничной системой для профессиональных нужд.

Теперь модель объединяет навыки программирования из недавно вышедшего GPT-5.3 Codex с усиленным мышлением, агентными процессами и встроенным управлением компьютером. По словам OpenAI, GPT-5.4 — первая основная модель мышления, включившая передовые возможности кодинга от GPT-5.3 Codex. Версии Thinking 5.3 не существовало, был только вариант Codex. Такая нумерация подчеркивает прорыв и облегчает выбор моделей в Codex.

Компания только недавно представила модель 5.3 Instant во вторник, и она пока остается моделью по умолчанию в ChatGPT. В будущем Instant и Thinking будут эволюционировать с разной скоростью.

GPT-5.4 не уступает специалистам по 44 профессиям в бенчмарке GDPval

OpenAI явно продвигает GPT-5.4 как инструмент для офисных задач. В собственном бенчмарке GDPval, оценивающем агентов по 44 профессиям из девяти ключевых отраслей экономики США, GPT-5.4 набирает 83,0 процента, догоняя или обгоняя профессионалов этих сфер. Это на 12,1 процента лучше, чем 70,9 процента у GPT-5.2. Любопытно, что базовая модель 5.4 Thinking здесь опережает версию Pro.

Наибольший прогресс заметен в работе со spreadsheet: для задач моделирования в инвестиционном банкинге GPT-5.4 достигла 87,3 процента против 68,4 процента у предшественника. В создании презентаций люди отдавали предпочтение результатам GPT-5.4 в 68 процентах случаев из-за улучшенной эстетики и разнообразия визуалов. OpenAI также запустила дополнение для ChatGPT к Excel, ориентированное на корпоративных клиентов.

GPT-5.4 демонстрирует стабильный рост и в академических тестах, особенно в абстрактном мышлении: версия Pro набрала 83,3 процента в ARC-AGI-2, в то время как GPT-5.2 Pro показала лишь 54,2 процента.

Eval	GPT-5.4	GPT-5.4 Pro	GPT-5.3 Codex	GPT-5.2	GPT-5.2 Pro
Frontier Science Research	33.0%	36.7%	-	25.2%	-
FrontierMath Tier 1-3	47.6%	50.0%	-	40.7%	-
FrontierMath Tier 4	27.1%	38.0%	-	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
Humanity's Last Exam (no tools)	39.8%	42.7%	-	34.5%	36.6%
Humanity's Last Exam (with tools)	52.1%	58.7%	-	45.5%	50.0%
ARC-AGI-1 (Verified)	93.7%	94.5%	-	86.2%	90.5%
ARC-AGI-2 (Verified)	73.3%	83.3%	-	52.9%	54.2% (high)

OpenAI сообщает об еще большем снижении галлюцинаций: вероятность ошибок в отдельных утверждениях уменьшилась на 33 процента, а в полных ответах — на 18 процентов по сравнению с GPT-5.2.

"Мы не видим никаких ограничений, и ожидаем, что возможности ИИ продолжат резко расти в этом году", — пишет исследователь OpenAI Ноам Браун, один из авторов прорыва в моделях мышления компании OpenAI.

GPT-5.4 обходит людей в навигации по десктопным средам

GPT-5.4 — первая универсальная модель OpenAI со встроенным управлением компьютером. Агенты работают со скриншотами, мышью и клавиатурой, самостоятельно справляясь со сложными задачами в веб-сайтах и программах. Раньше такая функция была только в режиме агента ChatGPT, но действовала ненадежно и почти не использовалась.

Теперь ситуация меняется. В бенчмарке OSWorld Verified, проверяющем перемещение в десктопных окружениях, GPT-5.4 достигла успеха в 75,0 процентах случаев. У GPT-5.2 было 47,3 процента, а люди набрали 72,4 процента — модель впервые обошла человеческий уровень.

Визуальное восприятие тоже усилилось. OpenAI ввела новый режим детального разбора изображений до 10,24 миллиона пикселей в полном разрешении. В бенчмарке OmniDocBench для анализа документов средняя ошибка снизилась с 0,140 до 0,109.

Прогресс в кодинге скромный, зато скорость выросла

В программировании GPT-5.4 набирает 57,7 процента в SWE-Bench Pro, чуть лучше, чем 56,8 процента у GPT-5.3 Codex и 55,6 процента у GPT-5.2. Главное преимущество — в скорости: режим "/fast" в Codex ускоряет генерацию токенов до 1,5 раза без потери качества.

Агентный поиск в вебе тоже улучшился. В BrowseComp, тестирующем поиск редкой информации, GPT-5.4 показывает 82,7 процента, а Pro — 89,3 процента против 65,8 процента у GPT-5.2.

	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (wins or ties)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

Чтобы продемонстрировать комбинацию кодинга и управления ПК, OpenAI выпустила экспериментальный навык Codex "Playwright (Interactive)" для визуальной отладки веб- и Electron-приложений. В демонстрации GPT-5.4 по одному запросу создала симулятор изометрического парка аттракционов с расстановкой путей, поиском маршрутов для посетителей и очередями.

Tool Search сокращает расход токенов почти вдвое

Одно из ключевых нововведений в API — "Tool Search". Раньше все описания инструментов загружались в запрос целиком, тратя тысячи лишних токенов в больших наборах. GPT-5.4 получает только краткий список доступных инструментов и запрашивает полные описания по мере надобности.

По данным OpenAI, это снизило потребление токенов на 47 процентов в тесте на 250 задачах из MCP Atlas при сохранении точности. Для серверов MCP с десятками тысяч токенов в описаниях инструментов экономия окажется существенной.

Процесс мышления стал эффективнее. В ChatGPT GPT-5.4 Thinking показывает предварительный план для сложных запросов. Пользователи вмешиваются с инструкциями или корректировками до завершения ответа, сокращая обмен репликами. Функция работает на chatgpt.com и Android, для iOS — скоро.

GPT-5.4 в Codex экспериментально поддерживает контекстное окно до одного миллиона токенов, что полезно для длительного планирования и выполнения. Однако избыток или неточная информация по-прежнему снижает надежность модели .

Цены на токены выросли, но эффективность покрывает расходы

GPT-5.4 дороже предшественника. OpenAI подчеркивает, что как самая токеноэкономичная модель мышления она тратит меньше токенов на те же задания, компенсируя повышенную стоимость за токен.

API model	Input price	Cached input price	Output price
gpt-5.2	$1.75 / M tokens	$0.175 / M tokens	$14 / M tokens
gpt-5.4	$2.50 / M tokens	$0.25 / M tokens	$15 / M tokens
gpt-5.2-pro	$21 / M tokens	-	$168 / M tokens
gpt-5.4-pro	$30 / M tokens	-	$180 / M tokens

В ChatGPT GPT-5.4 Thinking доступна для пользователей Plus, Team и Pro, заменив GPT-5.2 Thinking. Старая модель пробудет три месяца в разделе "Legacy Models", после чего исчезнет 5 июня 2026 года. Корпоративные и образовательные пользователи активируют доступ через настройки админа. GPT-5.4 Pro — для Pro и Enterprise.

Оценка кибербезопасности впервые достигла "High Capability" для универсальной модели

В Model Card выделяется прогресс в кибербезопасности. Как и предшествующий специализированный GPT-5.3 Codex, GPT-5.4 получила статус "High Capability". Но GPT-5.4 Thinking — первая общая модель мышления с такой классификацией, что расширяет её применение и уязвимости.

По рамкам Preparedness Framework OpenAI, уровень "High" означает способность снимать барьеры для кибератак, например автоматизировать полные атаки на защищенные цели или самостоятельно находить и использовать релевантные уязвимости. Выше только "Critical", где модель находит zero-day в укрепленных системах без помощи и создает новые стратегии атак.

OpenAI внедрила новую защиту для 5.4: вместо переключения подозрительных пользователей на слабую модель применяются блокировщики на уровне сообщений с двухэтапным мониторингом — классификатор тем и ИИ-аналитик безопасности. В стандартных тестах безопасность на уровне GPT-5.2 Thinking, но устойчивость к jailbreak выросла по сравнению с GPT-5.1 Thinking.

OpenAI представила GPT-5.4 Thinking и Pro: кодинг, мышление и управление ПК

GPT-5.4 не уступает специалистам по 44 профессиям в бенчмарке GDPval

GPT-5.4 обходит людей в навигации по десктопным средам

Прогресс в кодинге скромный, зато скорость выросла

Tool Search сокращает расход токенов почти вдвое

Цены на токены выросли, но эффективность покрывает расходы

Оценка кибербезопасности впервые достигла "High Capability" для универсальной модели

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

Генератор видео ChatUp AI без цензуры: ключевые возможности

Топ-7 открытых моделей OCR

Сейчас в тренде