бенчмарки

Хорошие новости для xAI: Grok отлично отвечает по Baldur’s Gate

xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.

вчера

Google выпустил Gemini 3.1 Pro с удвоенной логикой

Google представил Gemini 3.1 Pro — обновление с сильным приростом в мышлении: на ARC-AGI-2 результат вырос до 77,1% с 31,1%. Модель лидирует в большинстве бенчмарков, доступна на ключевых платформах по низким ценам и уже в preview для всех.

4 мин

19 февраля 2026 г.

Файлы контекста часто вредят кодинговым агентам

Исследование ETH Zurich выявило: автоматические файлы контекста вроде AGENTS.md чаще вредят кодинговым агентам, снижая успех и повышая затраты. Ручные версии дают малый прирост, а польза видна только при дефиците знаний. Разработчикам советуют минимум указаний вручную.

17 февраля 2026 г.

Qwen3.5 от Alibaba ускоряет гонку моделей

Alibaba открыла доступ к модели Qwen3.5-397B-A17B, которая сочетает текст, изображения и видео в одной архитектуре с 397 миллиардами параметров, из которых активируется 17 миллиардов. Она ускорена до 19 раз по сравнению с предшественниками и лидирует в агентных задачах. Китайские лаборатории продолжают выпускать мощные open-weight модели по низким ценам, усиливая конкуренцию.

5 мин

16 февраля 2026 г.

Память Mastra для ИИ с эмодзи светофора

Открытый фреймворк Mastra предлагает наблюдательную память для ИИ-агентов: два агента сжимают диалоги в заметки с эмодзи-приоритетами, как в логах ПО, и хранят их как текст без баз данных. Система бьет рекорды на LongMemEval и совместима с кэшированием промтов. Это шаг к эффективной памяти, где архитектуры соревнуются за лидерство.

4 мин

15 февраля 2026 г.

Zhipu AI выпустила GLM-5 под MIT наравне с Claude и GPT

Китайская Zhipu AI открыла GLM-5 с 744 млрд параметров под лицензией MIT — модель конкурирует с Claude Opus 4.5 и GPT-5.2 в кодинге и агентных задачах, генерирует документы и работает на китайском железе. Китайские лаборатории ускоряют темпы, сокращая отставание от Запада.

5 мин

13 февраля 2026 г.

DeepMind улучшил Gemini 3 Deep Think для науки

Google DeepMind представила обновленный режим «Gemini 3 Deep Think», который теперь доступен в приложении Gemini для подписчиков и через API Vertex AI. Модель лидирует в тестах на логическое мышление, академические знания и программирование, достигая уровня золотых медалей на олимпиадах. Улучшения особенно заметны в абстрактных задачах.

1 мин

12 февраля 2026 г.

Gemini 3.1 Pro Preview возглавила Intelligence Index вдвое дешевле

Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.

21 час назад

Gemini 3.1 Pro от Google снова лидирует в бенчмарках

Google анонсировала Gemini 3.1 Pro — модель превосходит Gemini 3 в тестах вроде Humanity’s Last Exam и лидирует в APEX-Agents. Брендан Фуди из Mercor отметил быстрый прогресс ИИ-агентов. Это усиливает конкуренцию с OpenAI и Anthropic в разработке продвинутых моделей.

20 февраля 2026 г.

Новый бенчмарк: ИИ-агенты сами эксплуатируют уязвимости контрактов

OpenAI и Paradigm представили EVMbench — тест для ИИ-агентов на выявление, исправление и эксплуатацию уязвимостей в смарт-контрактах Ethereum на основе 120 реальных случаев. GPT-5.3-Codex справилась с 72% атак и 41,5% фиксов, а с подсказками показатели взлетели до 96% и 94%. Это сулит прогресс в безопасности блокчейна, но повышает риски для $100 млрд активов.

19 февраля 2026 г.

Anthropic выпустила Sonnet 4.6

Anthropic анонсировала Sonnet 4.6 — обновление средней модели с улучшениями в кодинге и работе с ПК. Контекстное окно выросло до 1 млн токенов, а модель лидирует в ключевых тестах вроде ARC-AGI-2. Это следует за недавним релизом Opus 4.6.

17 февраля 2026 г.

Статьи

Топ-5 сверхбыстрых провайдеров LLM API

Мы собрали топ-5 провайдеров LLM API с экстремальной скоростью: от Cerebras с тысячами токенов в секунду до Groq с минимальными задержками. Каждый excels в своих сценариях — от чатов до длинных генераций. Сравнительная таблица поможет выбрать подходящий для задач.

6 мин

16 февраля 2026 г.

Seed2.0 от Bytedance усиливает давление на западные ИИ

Bytedance выпустила серию Seed2.0, которая конкурирует с топовыми западными ИИ-моделями по тестам, но стоит в разы дешевле. Модели сильны в мультимодальной обработке и олимпиадах, хотя уступают в некоторых задачах. API уже доступен через Doubao и Volcano Engine.

14 февраля 2026 г.

OpenAI: сверхбыстрая модель Codex-Spark

OpenAI запустила GPT-5.3-Codex-Spark — компактную модель для кодинга в реальном времени на чипах Cerebras с производительностью свыше 1000 токенов в секунду. Она быстрее крупных аналогов на бенчмарках, жертвуя частью точности, и уже доступна в preview для Pro-пользователей. Компания планирует развить линейку и объединить быстрый и аналитический режимы.

12 февраля 2026 г.

Qwen-Image-2.0 точно рисует каллиграфию и слайды

Команда Qwen из Alibaba выпустила Qwen-Image-2.0 — 7-миллиардную модель для генерации и редактирования изображений с почти идеальным текстом, включая древнюю каллиграфию. Она лидирует в тестах Arena, обходя специализированных конкурентов. Скоро ожидаются открытые веса, как с предыдущей версией.