Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
DataRobot представил стандартизированные бенчмарки для LLM, измеряющие реальную производительность: максимальную конкурентность, задержку и стоимость токенов. Эти метрики позволяют точно рассчитать бюджет и инфраструктуру до запуска в продакшн.
Philosophy Bench протестировал фронтирные ИИ-модели на 100 этических дилеммах, выявив различия в подходах: Claude от Anthropic самый деонтологичный с 24% согласий на нарушения, Grok от xAI — чистый консеквенциалист. Gemini легко корректируется, GPT-5 минимизирует ошибки, но избегает морали. Этика превращается в рыночную фичу, вызывая споры о контроле над мощными агентами.
xAI выпустила Grok 4.3 с ценами на 40–60% ниже, скоростью 100 токенов/с и встроенным мышлением. Модель набирает 53 в Intelligence Index при тестах за $395 и лидирует в отдельных бенчмарках вроде CaseLaw. Запущен Agent Mode для Grok Imagine, помогающий в сложных креативных проектах вроде видео или манги.
Anthropic запустила BioMysteryBench — тест из 99 задач по биоинформатике на реальных данных. Claude Mythos Preview достигает 82,6% точности на задачах, доступных экспертам, и 30% на сверхсложных. Результаты подтверждает независимый CompBioBench от Genentech и Roche.
OpenAI выпустила GPT-5.5 — самую продвинутую агентную ИИ-модель, способную самостоятельно планировать и выполнять сложные задачи. Она лидирует в тестах вроде Terminal-Bench 2.0 (82,7%) и SWE-Bench Pro (58,6%), но API вдвое дороже. Модель уже применяется внутри компании, где 85% сотрудников используют её еженедельно.
GPT-5.5 возглавила Intelligence Index Artificial Analysis с 60 очками, опередив Claude Opus 4.7 и Gemini 3.1 Pro Preview на три пункта. Удвоение цены API смягчено экономией 40% токенов, итого рост на 20%, но галлюцинаций стало 86% — хуже конкурентов. Бенчмарки хвалят цену-производительность, однако в программировании и галлюцинациях модель не без изъянов.
DeepSeek выпустила открытые модели V4-Pro (1,6 трлн параметров) и V4-Flash с контекстом в миллион токенов по ценам ниже OpenAI и Anthropic. Новые архитектуры резко снижают затраты на длинные контексты, а в бенчмарках V4-Pro лидирует среди открытых весов. Модели заточены под агентные задачи и проверены на Nvidia с Huawei.
Opus 4.7 от Anthropic имеет равную с 4.6 цену, но расходует больше токенов — в среднем 1,325 раза на коде, до 1,47 раза на техдокументах и 37,4% по данным сообщества. Для сессии из 80 взаимодействий затраты вырастут на 20–30%. Модель лучше следует инструкциям — на 5 п.п. по IFEval.
Alibaba выпустила омнимодальную модель Qwen3.5-Omni, которая лидирует в аудиозадачах над Gemini 3.1 Pro и неожиданно обрела способность генерировать код по голосовым инструкциям и видео. Версия Plus установила рекорды на 215 бенчмарках, расширила языковую поддержку до 113 языков и ввела ARIA для естественного синтеза речи в реальном времени. Выпуск произошел на фоне ухода ключевых разработчиков.
Фонд ARC Prize изучил 160 сессий GPT-5.5 и Opus 4.7 на ARC-AGI-3 и нашёл три системных паттерна ошибок рассуждений, из-за которых модели не превышают 1%. Эти проблемы — от потери общей картины до ложных аналогий и неверификации успехов — актуальны для реальных ИИ-агентов. Анализ перекликается с выводами других исследований о слабом понимании у языковых моделей.
Британский AISI протестировал GPT-5.5 от OpenAI: модель показала результаты на уровне Claude Mythos в киберзадачах и симуляциях атак. Она полностью прошла сетевую симуляцию TLO в 2 из 10 попыток, но jailbreak обошел все защиты. Тесты подтверждают рост автономных атакующих способностей ИИ.
Nvidia выпустила открытую мультимодальную модель Nemotron 3 Nano Omni для текста, изображений, видео и аудио, ориентированную на агентные задачи. Она использует гибрид Mamba-Transformer с MoE и обучающие данные от Qwen, GPT-OSS и других, показывая высокие результаты на бенчмарках вроде OSWorld с точностью 47,4%. Релиз включает веса, данные и пайплайны под коммерческой лицензией.
Handshake AI и Университет Макгилла создали BankerToolBench — тест ИИ на задачах младших банкиров. 500 специалистов из топ-банков оценили девять моделей вроде GPT-5.4 и Claude Opus 4.6: ни один результат не готов для клиента, хотя 69% сочли их полезной основой. Бенчмарк выявил системные проблемы с формулами, логикой и данными.
OpenAI запустила бесплатный ChatGPT для клиницистов в США, где GPT-5.4 по бенчмарку HealthBench Professional набирает 59.0 и превосходит врачей (43.7) даже с их неограниченным временем и интернетом. Инструмент включает поиск по литературе с цитатами, шаблоны задач и кредиты CME. Глобальное расширение и конкуренция с Anthropic, Microsoft, Google нарастают.
Moonshot AI выпустила открытую модель Kimi K2.6, которая конкурирует с GPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro в бенчмарках по кодингу и агентам. Ключевой фичей стал Agent Swarm с параллельным запуском до 300 агентов для сложных задач. Модель доступна по модифицированной MIT-лицензии с условием для крупных коммерческих продуктов.
Бенчмарк RealChart2Code протестировал 14 ИИ-моделей на сложных графиках из реальных данных Kaggle: даже лидеры вроде Claude 4.5 Opus и Gemini 3 Pro Preview теряют до половины производительности. Открытые модели страдают от галлюцинаций библиотек и ошибок layouts, закрытые — от неправильного назначения данных. Бенчмарк доступен на GitHub и Hugging Face.