OpenAI выпустила GPT-5.5 для агентных задач

OpenAI выпустила GPT-5.5 — самую продвинутую агентную ИИ-модель, способную самостоятельно планировать и выполнять сложные задачи. Она лидирует в тестах вроде Terminal-Bench 2.0 (82,7%) и SWE-Bench Pro (58,6%), но API вдвое дороже. Модель уже применяется внутри компании, где 85% сотрудников используют её еженедельно.

OpenAI представила GPT-5.5 23 апреля, назвав её «новым типом интеллекта для реальных задач и поддержки агентов». Компания подчёркивает, что это самая продвинутая агентная ИИ-модель на сегодняшний день. Она создана с нуля для самостоятельного планирования, работы с инструментами, самопроверки результатов и выполнения заданий без постоянного контроля.

GPT-5.5 стала первой полностью переобученной базовой моделью после GPT-4.5. Её разрабатывали совместно с системами NVIDIA GB200 и GB300 NVL72 rack-scale. Главное отличие в том, что теперь задачи, которые раньше требовали цепочки запросов и правок от человека, можно полностью передать модели. Доступ для пользователей Plus, Pro, Business и Enterprise в ChatGPT и Codex начался сразу, а API открыли 24 апреля.

Результаты тестов

Самый сильный показатель — в Terminal-Bench 2.0. Этот тест проверяет работу с командной строкой, где нужна координация инструментов и планирование в изолированной среде. GPT-5.5 набрала 82,7%, обогнав GPT-5.4 с 75,1% и Claude Opus 4.7 с 69,4%.

В SWE-Bench Pro, оценивающем решение задач из GitHub, модель достигла 58,6% и справляется с большим числом проблем за один проход. OpenAI также представила внутренний тест Expert-SWE: задания с медианным временем выполнения человеком в 20 часов. Здесь GPT-5.5 показала 73,1% против 68,5% у GPT-5.4.

Для задач с длинным контекстом в MRCR v2 на миллион токенов — тесте на поиск точного ответа в огромном документе — результат 74,0%, в то время как у GPT-5.4 было 36,6%.

Зато в MCP Atlas от Scale AI, проверяющем использование инструментов по Model Context Protocol, лидирует Claude Opus 4.7 с 79,1%. У GPT-5.5 результата нет, но OpenAI честно указала это в своей таблице сравнений.

Экономия токенов и стоимость

Доступ через API стоит 5 долларов за миллион входных токенов и 30 долларов за миллион выходных — ровно вдвое дороже, чем для GPT-5.4. OpenAI объясняет это повышенной эффективностью: модель тратит меньше токенов на те же задания в Codex, так что реальная переплата около 20%. Лаборатория Artificial Analysis подтвердила эти расчёты.

Версия GPT-5.5 Pro для Pro, Business и Enterprise — 30 долларов за входные и 180 за выходные токены на миллион. Она использует дополнительный параллельный вычисления на сложных задачах и лидирует в BrowseComp — тесте OpenAI по веб-навигации для агентов — с 90,1%.

Перед переходом стоит проверить эффективность на своих нагрузках. Например, при 10 миллионах выходных токенов в месяц стандартная GPT-5.5 обойдётся в 300 долларов, а Claude Opus 4.7 — в 250. Разница окупается, только если агентные возможности снижают число итераций и повторов — и это зависит от сценария.

Реальное применение

В OpenAI сообщают: свыше 85% сотрудников еженедельно используют Codex в своих отделах, включая инженерию и маркетинг. Например, команда коммуникаций обработала данные по заявкам на выступления за полгода. Модель создала систему оценки рисков, которая автоматизирует одобрение низкорисковых запросов.

Грег Брокман назвал релиз «реальным прорывом к будущему вычислениям». Главный учёный Jakub Pachocki добавил, что прогресс моделей за последние два года шёл неожиданно медленно.

GPT-5.5 сохраняет задержку на токен как у GPT-5.4 в продакшене, но работает на более высоком уровне интеллекта. Обычно более мощные модели медленнее, но здесь этот компромисс обошли.

Останется ли лидерство в тестах в реальных пайплайнах агентов — вопрос ближайших недель. Результат в Terminal-Bench хорош для автономных агентов в терминале и DevOps. Разрыв по MCP Atlas важен для систем с интенсивным использованием инструментов.

GPT-5.5 — самая мощная агентная модель OpenAI

Результаты тестов

Экономия токенов и стоимость

Реальное применение

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде