GPT-5.5 лидирует в бенчмарках ИИ с 60 очками

GPT-5.5 возглавила Intelligence Index Artificial Analysis с 60 очками, опередив Claude Opus 4.7 и Gemini 3.1 Pro Preview на три пункта. Удвоение цены API смягчено экономией 40% токенов, итого рост на 20%, но галлюцинаций стало 86% — хуже конкурентов. Бенчмарки хвалят цену-производительность, однако в программировании и галлюцинациях модель не без изъянов.

GPT-5.5 обходится примерно на 20% дороже GPT-5.4 через API. Модель возглавила рейтинги ИИ, но с ней сохраняются проблемы с галлюцинациями.

По номиналу цена API GPT-5.5 удвоилась и достигла $5 за миллион входных токенов и $30 за миллион выходных по сравнению с версией 5.4. Однако сервис Artificial Analysis отмечает, что модель расходует около 40% меньше токенов, из-за чего реальный рост стоимости снижается примерно до 20%. Это все равно меньший скачок, чем у Opus 4.7 от Anthropic: та стоит столько же, сколько предыдущая версия, но тратит на 35–40% больше токенов. GPT-5.5 вернула OpenAI первое место в рейтингах ИИ, опередив Artificial Analysis Intelligence Index на три очка.

Столбчатая диаграмма Intelligence Index от Artificial Analysis: GPT-5.5 на первом месте с 60 очками, за ней Claude Opus 4.7, Gemini 3.1 Pro Preview и GPT-5.4 по 57 очков каждая. Другие модели вроде Kimi K2.6, Muse Spark, Qwen3.6 Max Preview и Claude Sonnet 4.6 набирают от 52 до 24 очков.

GPT-5.5 лидирует в Intelligence Index от Artificial Analysis с 60 очками — на три пункта впереди Claude Opus 4.7 и Gemini 3.1 Pro Preview, которые разделили второе место с 57 очками. Изображение: Artificial Analysis.

Хорошее соотношение цены и производительности, но тесты показывают не всю картину

При средней нагрузке на вычисления GPT-5.5 достигает показателей Claude Opus 4.7 на максимуме за четверть той же цены: около $1200 вместо $4800. Gemini 3.1 Pro Preview от Google выдает сопоставимые результаты еще выгоднее — примерно за $900. Впрочем, бенчмарки отражают не все: наши тесты и отзывы разработчиков указывают, что Gemini выделяется универсальностью в экосистеме Google и обработкой изображений, а свежие модели OpenAI и Anthropic превосходят его в программировании и агентских задачах.

Два графика от Artificial Analysis: сверху диаграмма рассеяния интеллекта против расхода выходных токенов — GPT-5.5 на xhigh набирает около 60 очков при 68 миллионах токенов и попадает в зеленую зону 'самая привлекательная'. GPT-5.4 требует больше токенов для похожего результата. Снизу столбчатая диаграмма расхода токенов: GPT-5.4 mini лидирует с 230 миллионами, Claude Sonnet 4.6 — 200 миллионов. GPT-5.5 на xhigh тратит 75 миллионов, GPT-5.4 на xhigh — 120 миллионов. — GPT-5.5 расходует около 40% меньше токенов, чем GPT-5.4, и попадает в самую выгодную зону диаграммы: высокий интеллект при низком потреблении токенов. Claude Opus 4.7 и GPT-5.4 mini требуют гораздо больше выходных токенов для аналогичных результатов. Изображение: Artificial Analysis.

Галлюцинации продолжают подводить

Новая модель OpenAI слаба в борьбе с галлюцинациями. В тесте AA Omniscience от Artificial Analysis, где хвалят точное знание фактов и наказывают за неточности, GPT-5.5 показывает наивысшую точность среди всех — 57%. Однако ее уровень галлюцинаций достигает 86%, в то время как у Claude Opus 4.7 он всего 36%, а у Gemini 3.1 Pro Preview — 50%. Прогресс на 14 пунктов по сравнению с GPT-5.4 пришелся в основном на улучшение запоминания фактов, с небольшим снижением галлюцинаций.

Три столбчатые диаграммы от Artificial Analysis по галлюцинациям: в AA-Omniscience Index лидирует Gemini 3.1 Pro Preview с 33 очками. По точности GPT-5.5 впереди с 57%. По уровню галлюцинаций Grok 4.20 лучший с 17%, GPT-5.5 — один из худших с 86%. Claude Opus 4.7 — 36%. — GPT-5.5 лидирует по точности с 57%, но имеет один из самых высоких показателей галлюцинаций — 86%. Claude Opus 4.7 ошибается гораздо реже — всего 36%. Изображение: Artificial Analysis.

Способность timely отказаться от ответа или признаться в незнании — ценное качество для ИИ-модели. С этой точки зрения GPT-5.5 больше напоминает регресс, чем прогресс.

GPT-5.5 лидирует в бенчмарках ИИ, но галлюцинирует чаще и стоит на 20% дороже

Хорошее соотношение цены и производительности, но тесты показывают не всю картину

Галлюцинации продолжают подводить

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде