Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Alibaba выпустила открытую модель Qwen3.6-35B-A3B на базе MoE, которая активирует лишь 3 млрд параметров из 35 млрд и обходит Gemma 4 от Google по всем бенчмаркам агентного кодинга. Она лидирует также в тестах рассуждений и конкурирует с Claude Sonnet 4.5 в мультимодальных задачах. Модель доступна для теста и скачивания на популярных платформах.
Google запустила модель синтеза речи Gemini 3.1 Flash TTS — самую естественную с аудиотэгами для контроля стиля и поддержкой 70+ языков. Она занимает топовые места в рейтингах Artificial Analysis с Elo 1211, обходя ElevenLabs v3. Доступна бесплатно в AI Studio с пометкой SynthID.
Отчет AI Index 2026 от Stanford HAI отмечает скачки производительности ИИ-моделей, которые опережают людей в сложных задачах, и сближение США с Китаем. Параллельно растут проблемы безопасности, падает доверие общества, а внедрение в бизнес и образование сталкивается с барьерами. Эксперты оптимистичны насчет влияния на рынок труда, в отличие от большинства людей.
Исследование протестировало 34 тысячи реальных навыков ИИ-агентов: в реалистичных условиях они дают минимальный прирост, а слабые модели работают хуже. Проблемы в выборе, поиске и адаптации; уточнение помогает лишь при сильной базе. Ранние тесты Vercel подтвердили: агенты часто игнорируют навыки.
Бенчмарк ProactiveBench показал: из 22 мультимодальных ИИ-моделей почти ни одна не просит помощи при нехватке визуальных данных, предпочитая ошибаться. Дообучение с подкреплением GRPO поднимает точность до 38,6%, но проблема неопределенности остается острой. Исследователи открыли код бенчмарка для дальнейшей работы.
Команда Bing от Microsoft открыла модель эмбеддингов Harrier, возглавившую бенчмарк MTEB v2 и обошедшую OpenAI с Amazon. Поддерживает 100+ языков, контекст 32k токенов, обучена на 2 млрд примеров с данными GPT-5. Доступны версии 27B, 0.6B и 270M на Hugging Face.
MLCommons выпустила результаты MLPerf Inference v6.0 с новыми мультимодальными тестами: Nvidia лидирует с 288 GPU и 2,7x софт-оптимизацией, AMD догоняет в single-node до 119% от B200 Nvidia, Intel фокусируется на workstations. Результаты сложно сравнивать напрямую из-за разных подходов. Nvidia продвигает тест для реального API-трафика.
Специалисты Nvidia и университетов выпустили CaP-X — фреймворк для проверки ИИ-агентов в написании кода для роботов. Топ-модели проваливают задачи без готовых абстракций, но CaP-Agent0 без обучения и CaP-RL достигают уровня человека. Метод показывает превосходство кодогенерации над обучением на датасетах движений.
Anthropic выпустила Claude Opus 4.7 с лидерством на SWE-bench Pro (64.3%) и утроенным разрешением изображений (3.75 МП). Модель точнее следует промтам, снижает галлюцинации, но с урезанными кибервозможностями и ростом расходов на токены.
Британский AISI протестировал Claude Mythos Preview: модель впервые автономно завершила симуляцию 32-шаговой атаки на корпоративную сеть в 3 из 10 попыток, пройдя в среднем 22 шага. Она лидирует в CTF с 73% на экспертном уровне и 93% на задачах практиков. Результаты требуют усиления базовой кибербезопасности, хотя модель ограничена слабо защищенными сетями.
AI Index 2026 от Stanford собрал 12 графиков о состоянии ИИ: США лидируют по моделям (50 в 2025-м), Китай — по роботам (295 тыс.), инвестиции достигли 581 млрд долларов, мощности выросли в 30 раз с 2021-го. Прогресс в бенчмарках ускоряется, но остаются слабости вроде чтения часов и высокие выбросы CO₂ от обучения (до 140 тыс. тонн для Grok 4). Отношение улучшилось слегка, доверие к регуляции разнится.
Arcee AI выпустила Trinity-Large-Thinking — открытую модель с 400 млрд параметров под Apache 2.0, соперничавшую с Claude Opus в агентных задачах. Обучение на 2048 GPU Nvidia B300 обошлось в 20 млн долларов — половину венчурного капитала. Модель лидирует в Tau2-Airline и PinchBench, использует MoE с 256 экспертами и контекст до 512K токенов.
Ученые Stanford выяснили: многозагентные ИИ-системы выигрывают в основном за счет большего объема вычислений, одиночные агенты при равных ресурсах не уступают. Команды полезны при длинных контекстах, зашумленных данных и слабых моделях, особенно в дебатах.
Исследование Google Research и Rochester Institute of Technology выявило, что стандартные бенчмарки ИИ с 3–5 оценщиками игнорируют разнообразие человеческих мнений. Симулятор показал: для надежности нужно более 10 человек на пример и правильное распределение бюджета. Стратегия зависит от метрики — для точности хватит широкого охвата, для разброса ответов требуется глубокая оценка.
Alibaba выпустила Qwen3.6-Plus — третью проприетарную модель ИИ за несколько дней с контекстом в 1 млн токенов и улучшениями в агентном кодинге. В бенчмарках она частично обходит Claude 4.5 Opus. Это часть стратегии компании по росту доходов от закрытых моделей до 100 млрд долларов за пять лет.
В 2026 году LLMOps требует полноценного стека инструментов для оркестрации, мониторинга, оценок и интеграций. Список предлагает по одному решению на ключевую задачу: от PydanticAI для type-safe выходов до Composio для внешних сервисов. Эти инструменты помогут командам строить надежные продакшн-системы.