Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

OpenAI представила GPT-5.4 Thinking и Pro: кодинг, мышление и управление ПК

OpenAI выпустила GPT-5.4 Thinking и Pro, объединившие кодинг из GPT-5.3 Codex, мышление и управление компьютером. Модель обходит профессионалов в 44 профессиях по GDPval (83%) и людей в навигации по ОС (75%). Улучшена эффективность, снижены галлюцинации, но цены на токены выросли.

5 марта 2026 г.
9 мин
50

GPT-5.4 от OpenAI стала самой продвинутой моделью, впервые собравшей в себе программирование, работу с компьютером и логическое мышление.

Компания выпустила GPT-5.4, которую можно использовать в ChatGPT под названием GPT-5.4 Thinking, через API и в Codex. Вместе с ней вышла версия GPT-5.4 Pro для особо трудных заданий. OpenAI называет эту модель самой мощной и экономичной граничной системой для профессиональных нужд.

Теперь модель объединяет навыки программирования из недавно вышедшего GPT-5.3 Codex с усиленным мышлением, агентными процессами и встроенным управлением компьютером. По словам OpenAI, GPT-5.4 — первая основная модель мышления, включившая передовые возможности кодинга от GPT-5.3 Codex. Версии Thinking 5.3 не существовало, был только вариант Codex. Такая нумерация подчеркивает прорыв и облегчает выбор моделей в Codex.

Компания только недавно представила модель 5.3 Instant во вторник, и она пока остается моделью по умолчанию в ChatGPT. В будущем Instant и Thinking будут эволюционировать с разной скоростью.

GPT-5.4 не уступает специалистам по 44 профессиям в бенчмарке GDPval

OpenAI явно продвигает GPT-5.4 как инструмент для офисных задач. В собственном бенчмарке GDPval, оценивающем агентов по 44 профессиям из девяти ключевых отраслей экономики США, GPT-5.4 набирает 83,0 процента, догоняя или обгоняя профессионалов этих сфер. Это на 12,1 процента лучше, чем 70,9 процента у GPT-5.2. Любопытно, что базовая модель 5.4 Thinking здесь опережает версию Pro.

Наибольший прогресс заметен в работе со spreadsheet: для задач моделирования в инвестиционном банкинге GPT-5.4 достигла 87,3 процента против 68,4 процента у предшественника. В создании презентаций люди отдавали предпочтение результатам GPT-5.4 в 68 процентах случаев из-за улучшенной эстетики и разнообразия визуалов. OpenAI также запустила дополнение для ChatGPT к Excel, ориентированное на корпоративных клиентов.

GPT-5.4 демонстрирует стабильный рост и в академических тестах, особенно в абстрактном мышлении: версия Pro набрала 83,3 процента в ARC-AGI-2, в то время как GPT-5.2 Pro показала лишь 54,2 процента.

EvalGPT-5.4GPT-5.4 ProGPT-5.3 CodexGPT-5.2GPT-5.2 Pro
Frontier Science Research33.0%36.7%-25.2%-
FrontierMath Tier 1-347.6%50.0%-40.7%-
FrontierMath Tier 427.1%38.0%-18.8%31.3%
GPQA Diamond92.8%94.4%92.6%92.4%93.2%
Humanity's Last Exam (no tools)39.8%42.7%-34.5%36.6%
Humanity's Last Exam (with tools)52.1%58.7%-45.5%50.0%
ARC-AGI-1 (Verified)93.7%94.5%-86.2%90.5%
ARC-AGI-2 (Verified)73.3%83.3%-52.9%54.2% (high)

OpenAI сообщает об еще большем снижении галлюцинаций: вероятность ошибок в отдельных утверждениях уменьшилась на 33 процента, а в полных ответах — на 18 процентов по сравнению с GPT-5.2.

"Мы не видим никаких ограничений, и ожидаем, что возможности ИИ продолжат резко расти в этом году", — пишет исследователь OpenAI Ноам Браун, один из авторов прорыва в моделях мышления компании OpenAI.

GPT-5.4 обходит людей в навигации по десктопным средам

GPT-5.4 — первая универсальная модель OpenAI со встроенным управлением компьютером. Агенты работают со скриншотами, мышью и клавиатурой, самостоятельно справляясь со сложными задачами в веб-сайтах и программах. Раньше такая функция была только в режиме агента ChatGPT, но действовала ненадежно и почти не использовалась.

Теперь ситуация меняется. В бенчмарке OSWorld Verified, проверяющем перемещение в десктопных окружениях, GPT-5.4 достигла успеха в 75,0 процентах случаев. У GPT-5.2 было 47,3 процента, а люди набрали 72,4 процента — модель впервые обошла человеческий уровень.

Визуальное восприятие тоже усилилось. OpenAI ввела новый режим детального разбора изображений до 10,24 миллиона пикселей в полном разрешении. В бенчмарке OmniDocBench для анализа документов средняя ошибка снизилась с 0,140 до 0,109.

Прогресс в кодинге скромный, зато скорость выросла

В программировании GPT-5.4 набирает 57,7 процента в SWE-Bench Pro, чуть лучше, чем 56,8 процента у GPT-5.3 Codex и 55,6 процента у GPT-5.2. Главное преимущество — в скорости: режим "/fast" в Codex ускоряет генерацию токенов до 1,5 раза без потери качества.

Агентный поиск в вебе тоже улучшился. В BrowseComp, тестирующем поиск редкой информации, GPT-5.4 показывает 82,7 процента, а Pro — 89,3 процента против 65,8 процента у GPT-5.2.

GPT-5.4GPT-5.3-CodexGPT-5.2
GDPval (wins or ties)83.0%70.9%70.9%
SWE-Bench Pro (Public)57.7%56.8%55.6%
OSWorld-Verified75.0%74.0%*47.3%
Toolathlon54.6%51.9%46.3%
BrowseComp82.7%77.3%65.8%

Чтобы продемонстрировать комбинацию кодинга и управления ПК, OpenAI выпустила экспериментальный навык Codex "Playwright (Interactive)" для визуальной отладки веб- и Electron-приложений. В демонстрации GPT-5.4 по одному запросу создала симулятор изометрического парка аттракционов с расстановкой путей, поиском маршрутов для посетителей и очередями.

Tool Search сокращает расход токенов почти вдвое

Одно из ключевых нововведений в API — "Tool Search". Раньше все описания инструментов загружались в запрос целиком, тратя тысячи лишних токенов в больших наборах. GPT-5.4 получает только краткий список доступных инструментов и запрашивает полные описания по мере надобности.

По данным OpenAI, это снизило потребление токенов на 47 процентов в тесте на 250 задачах из MCP Atlas при сохранении точности. Для серверов MCP с десятками тысяч токенов в описаниях инструментов экономия окажется существенной.

Процесс мышления стал эффективнее. В ChatGPT GPT-5.4 Thinking показывает предварительный план для сложных запросов. Пользователи вмешиваются с инструкциями или корректировками до завершения ответа, сокращая обмен репликами. Функция работает на chatgpt.com и Android, для iOS — скоро.

GPT-5.4 в Codex экспериментально поддерживает контекстное окно до одного миллиона токенов, что полезно для длительного планирования и выполнения. Однако избыток или неточная информация по-прежнему снижает надежность модели .

Цены на токены выросли, но эффективность покрывает расходы

GPT-5.4 дороже предшественника. OpenAI подчеркивает, что как самая токеноэкономичная модель мышления она тратит меньше токенов на те же задания, компенсируя повышенную стоимость за токен.

API modelInput priceCached input priceOutput price
gpt-5.2$1.75 / M tokens$0.175 / M tokens$14 / M tokens
gpt-5.4$2.50 / M tokens$0.25 / M tokens$15 / M tokens
gpt-5.2-pro$21 / M tokens-$168 / M tokens
gpt-5.4-pro$30 / M tokens-$180 / M tokens

В ChatGPT GPT-5.4 Thinking доступна для пользователей Plus, Team и Pro, заменив GPT-5.2 Thinking. Старая модель пробудет три месяца в разделе "Legacy Models", после чего исчезнет 5 июня 2026 года. Корпоративные и образовательные пользователи активируют доступ через настройки админа. GPT-5.4 Pro — для Pro и Enterprise.

Оценка кибербезопасности впервые достигла "High Capability" для универсальной модели

В Model Card выделяется прогресс в кибербезопасности. Как и предшествующий специализированный GPT-5.3 Codex, GPT-5.4 получила статус "High Capability". Но GPT-5.4 Thinking — первая общая модель мышления с такой классификацией, что расширяет её применение и уязвимости.

По рамкам Preparedness Framework OpenAI, уровень "High" означает способность снимать барьеры для кибератак, например автоматизировать полные атаки на защищенные цели или самостоятельно находить и использовать релевантные уязвимости. Выше только "Critical", где модель находит zero-day в укрепленных системах без помощи и создает новые стратегии атак.

OpenAI внедрила новую защиту для 5.4: вместо переключения подозрительных пользователей на слабую модель применяются блокировщики на уровне сообщений с двухэтапным мониторингом — классификатор тем и ИИ-аналитик безопасности. В стандартных тестах безопасность на уровне GPT-5.2 Thinking, но устойчивость к jailbreak выросла по сравнению с GPT-5.1 Thinking.