Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.
Google представил Gemini 3.1 Pro — обновление с сильным приростом в мышлении: на ARC-AGI-2 результат вырос до 77,1% с 31,1%. Модель лидирует в большинстве бенчмарков, доступна на ключевых платформах по низким ценам и уже в preview для всех.
Исследование ETH Zurich выявило: автоматические файлы контекста вроде AGENTS.md чаще вредят кодинговым агентам, снижая успех и повышая затраты. Ручные версии дают малый прирост, а польза видна только при дефиците знаний. Разработчикам советуют минимум указаний вручную.
Alibaba открыла доступ к модели Qwen3.5-397B-A17B, которая сочетает текст, изображения и видео в одной архитектуре с 397 миллиардами параметров, из которых активируется 17 миллиардов. Она ускорена до 19 раз по сравнению с предшественниками и лидирует в агентных задачах. Китайские лаборатории продолжают выпускать мощные open-weight модели по низким ценам, усиливая конкуренцию.
Открытый фреймворк Mastra предлагает наблюдательную память для ИИ-агентов: два агента сжимают диалоги в заметки с эмодзи-приоритетами, как в логах ПО, и хранят их как текст без баз данных. Система бьет рекорды на LongMemEval и совместима с кэшированием промтов. Это шаг к эффективной памяти, где архитектуры соревнуются за лидерство.
Китайская Zhipu AI открыла GLM-5 с 744 млрд параметров под лицензией MIT — модель конкурирует с Claude Opus 4.5 и GPT-5.2 в кодинге и агентных задачах, генерирует документы и работает на китайском железе. Китайские лаборатории ускоряют темпы, сокращая отставание от Запада.
Google DeepMind представила обновленный режим «Gemini 3 Deep Think», который теперь доступен в приложении Gemini для подписчиков и через API Vertex AI. Модель лидирует в тестах на логическое мышление, академические знания и программирование, достигая уровня золотых медалей на олимпиадах. Улучшения особенно заметны в абстрактных задачах.
Предварительная версия Gemini 3.1 Pro от Google набрала 57 очков в Artificial Analysis Intelligence Index и обогнала Claude Opus 4.6 на четыре балла при вдвое меньшей стоимости теста. Модель лидирует в шести категориях, галлюцинации снизились на 38 п.п., но в агентных задачах и проверке фактов уступает конкурентам.
Google анонсировала Gemini 3.1 Pro — модель превосходит Gemini 3 в тестах вроде Humanity’s Last Exam и лидирует в APEX-Agents. Брендан Фуди из Mercor отметил быстрый прогресс ИИ-агентов. Это усиливает конкуренцию с OpenAI и Anthropic в разработке продвинутых моделей.
OpenAI и Paradigm представили EVMbench — тест для ИИ-агентов на выявление, исправление и эксплуатацию уязвимостей в смарт-контрактах Ethereum на основе 120 реальных случаев. GPT-5.3-Codex справилась с 72% атак и 41,5% фиксов, а с подсказками показатели взлетели до 96% и 94%. Это сулит прогресс в безопасности блокчейна, но повышает риски для $100 млрд активов.
Anthropic анонсировала Sonnet 4.6 — обновление средней модели с улучшениями в кодинге и работе с ПК. Контекстное окно выросло до 1 млн токенов, а модель лидирует в ключевых тестах вроде ARC-AGI-2. Это следует за недавним релизом Opus 4.6.
Мы собрали топ-5 провайдеров LLM API с экстремальной скоростью: от Cerebras с тысячами токенов в секунду до Groq с минимальными задержками. Каждый excels в своих сценариях — от чатов до длинных генераций. Сравнительная таблица поможет выбрать подходящий для задач.
Bytedance выпустила серию Seed2.0, которая конкурирует с топовыми западными ИИ-моделями по тестам, но стоит в разы дешевле. Модели сильны в мультимодальной обработке и олимпиадах, хотя уступают в некоторых задачах. API уже доступен через Doubao и Volcano Engine.
OpenAI запустила GPT-5.3-Codex-Spark — компактную модель для кодинга в реальном времени на чипах Cerebras с производительностью свыше 1000 токенов в секунду. Она быстрее крупных аналогов на бенчмарках, жертвуя частью точности, и уже доступна в preview для Pro-пользователей. Компания планирует развить линейку и объединить быстрый и аналитический режимы.
Команда Qwen из Alibaba выпустила Qwen-Image-2.0 — 7-миллиардную модель для генерации и редактирования изображений с почти идеальным текстом, включая древнюю каллиграфию. Она лидирует в тестах Arena, обходя специализированных конкурентов. Скоро ожидаются открытые веса, как с предыдущей версией.