Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Команда Bing от Microsoft открыла модель эмбеддингов Harrier, возглавившую бенчмарк MTEB v2 и обошедшую OpenAI с Amazon. Поддерживает 100+ языков, контекст 32k токенов, обучена на 2 млрд примеров с данными GPT-5. Доступны версии 27B, 0.6B и 270M на Hugging Face.
MLCommons выпустила результаты MLPerf Inference v6.0 с новыми мультимодальными тестами: Nvidia лидирует с 288 GPU и 2,7x софт-оптимизацией, AMD догоняет в single-node до 119% от B200 Nvidia, Intel фокусируется на workstations. Результаты сложно сравнивать напрямую из-за разных подходов. Nvidia продвигает тест для реального API-трафика.
Специалисты Nvidia и университетов выпустили CaP-X — фреймворк для проверки ИИ-агентов в написании кода для роботов. Топ-модели проваливают задачи без готовых абстракций, но CaP-Agent0 без обучения и CaP-RL достигают уровня человека. Метод показывает превосходство кодогенерации над обучением на датасетах движений.
Традиционные бенчмарки ИИ тестируют модели в изоляции, не отражая командную работу и долгосрочные эффекты. HAIC-бенчмарки оценивают взаимодействие человек–ИИ в реальных контекстах организаций. Такой подход выявляет системные риски, экономические последствия и помогает избежать неудачных внедрений.
Google выпустил Agent Skill для Gemini API, который обновляет знания ИИ-агентов о моделях и SDK. В тестах на 117 задачах Gemini 3.1 Pro Preview достигла 96,6% успеха против 28,2% без навыка. Старые модели улучшились меньше, а Vercel предлагает альтернативу через файлы AGENTS.md.
Утечка документов Anthropic раскрыла новую модель Claude Mythos (или Capybara), превосходящую Opus в тестах по кодингу, рассуждениям и кибербезопасности. Компания подтвердила разработку с фокусом на безопасность и медленный запуск. OpenAI готовит аналогичный прорыв с моделью Spud перед IPO.
Cohere выпустила открытую модель Transcribe с 2 млрд параметров для распознавания речи, поддерживающую 14 языков и лидирующую на Hugging Face с WER 5,42. Она быстро обрабатывает аудио и будет доступна бесплатно через API и Model Vault с интеграцией в North. Такие модели востребованы для заметок и диктовки, а Cohere показывает сильный рост выручки.
Luma AI выпустила Uni-1 — унифицированную модель для анализа и генерации изображений на автотрегрессивном трансформере. Она лидирует в RISEBench по логической обработке, обходит Nano Banana 2 и GPT Image 1.5, точно следует сложным промптам. Через API цены стартуют от 0,09 доллара за 2K-изображение, модель уже доступна для тестов.
Исследование Google Research и Rochester Institute of Technology выявило, что стандартные бенчмарки ИИ с 3–5 оценщиками игнорируют разнообразие человеческих мнений. Симулятор показал: для надежности нужно более 10 человек на пример и правильное распределение бюджета. Стратегия зависит от метрики — для точности хватит широкого охвата, для разброса ответов требуется глубокая оценка.
Alibaba выпустила Qwen3.6-Plus — третью проприетарную модель ИИ за несколько дней с контекстом в 1 млн токенов и улучшениями в агентном кодинге. В бенчмарках она частично обходит Claude 4.5 Opus. Это часть стратегии компании по росту доходов от закрытых моделей до 100 млрд долларов за пять лет.
В 2026 году LLMOps требует полноценного стека инструментов для оркестрации, мониторинга, оценок и интеграций. Список предлагает по одному решению на ключевую задачу: от PydanticAI для type-safe выходов до Composio для внешних сервисов. Эти инструменты помогут командам строить надежные продакшн-системы.
Фронтирные ИИ-модели уверенно описывают несуществующие изображения в 60–100% случаев, достигая 70–80% баллов бенчмарков без визуала. Текстовая модель на 3 млрд параметров обошла мультимодалки и радиологов, а метод B-Clean выявил утечки в тестах. Это подрывает доверие к визуальным претензиям ИИ и требует новых подходов к оценке.
Канадская Cohere выпустила открытую модель Transcribe для распознавания речи, возглавившую Hugging Face Open ASR Leaderboard с WER 5,42% и RTFx 525. Она превосходит Whisper Large v3 и другие аналоги по скорости и точности, поддерживает 14 языков. Модель доступна на Hugging Face под Apache 2.0 и планируется к интеграции в платформу North.
Google анонсировала Gemini 3.1 Flash Live — топовую голосовую ИИ-модель с быстрыми откликами и естественными беседами. В тестах Big Bench Audio она набирает 95,9% на высоком уровне мышления и доступна по низкой цене через API и сервисы компании в 200+ странах.
Фонд ARC Prize представил бенчмарк ARC-AGI-3, где ИИ-агенты самостоятельно осваивают игровые среды без подсказок — люди решают все 135 задач легко, frontier-модели набирают менее 1%. Метрика RHAE карает за неэффективность квадратично, лидерборд исключает кастомные обвязки. Конкурс на Kaggle предлагает $2 млн за результат на уровне человека.
Китайская MiniMax выпустила модель M2.7, которая самостоятельно участвовала в своей разработке через автономные циклы оптимизации и достигла результатов на уровне топовых моделей вроде GPT-5.4 и Opus 4.6. За 100+ итераций она повысила производительность на 30 процентов, показала 66,6 процента в MLE-Bench Lite и справляется с офисными задачами на ELO 1495. Компания открыла демо OpenRoom и доступ через API.