Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Zhipu AI представила GLM-5V-Turbo — мультимодальную модель, которая превращает дизайн-макеты в исполняемый фронтенд-код и интегрируется в агенты вроде OpenClaw. Она лидирует в бенчмарках по мультимодальному кодингу и GUI-задачам, сохраняя силу в текстовых тестах. Модель доступна через API по цене $1.20/млн входных и $4/млн выходных токенов.
Китай в 15-м Пятилетнем плане обозначил цели по ИИ до 2030 года: от чипов и моделей до инфраструктуры и регуляций. Фокус на вычислительных кластерах, мультимодальном ИИ и применении в экономике, услугах, госуправлении. Страна делает ставку на открытые эффективные модели, отличаясь от западного пути.
Google DeepMind представила демо Gemini 3.1 Flash-Lite: модель создает веб-страницы по текстовому запросу почти в реальном времени. Она в 2,5 раза быстрее Gemini 2.5 Flash с генерацией свыше 360 токенов в секунду, но цена вывода выросла до $1,50 за миллион. Подходит для быстрых прототипов интерфейсов, превосходит Claude Opus 4.6 в мультимодальных задачах.
Mistral AI выпустила Small 4 — компактную модель с 119 млрд параметров, где активируется только 6 млрд из 128 экспертных модулей за запрос. Она на 40% быстрее предыдущей версии и втрое производительнее, поддерживая текст, логику и изображения. Новинка доступна под Apache 2.0 на Hugging Face, Mistral API и Nvidia, а компания присоединяется к Nemotron Coalition.
Сотрудники OpenAI своими постами в X вызвали обсуждения новой омни-модели как преемницы GPT-4o. Исследователь Brandon McKinzie поддержал идею улучшений. Компания параллельно создает аудио BiDi для естественных прерываемых диалогов с прототипом, который пока нестабилен.
Luma представила платформу Luma Agents на моделях Unified Intelligence для полного цикла креативной работы с текстом, изображениями, видео и аудио. Агенты взаимодействуют с другими ИИ, сохраняют контекст и самокритичны, ускоряя процессы для агентств и брендов вроде Adidas. В примерах — генерация идей из брифа и локализация кампаний за 40 часов вместо года.
Alibaba открыла доступ к модели Qwen3.5-397B-A17B, которая сочетает текст, изображения и видео в одной архитектуре с 397 миллиардами параметров, из которых активируется 17 миллиардов. Она ускорена до 19 раз по сравнению с предшественниками и лидирует в агентных задачах. Китайские лаборатории продолжают выпускать мощные open-weight модели по низким ценам, усиливая конкуренцию.
ByteDance представила Seedance 2.0 — продвинутую мультимодальную модель для генерации видео длиной 4–15 секунд с аудио. Она использует референсы из видео для контроля камеры и редактирования, но пока доступна только в бета-версии. Выпуск усилил конкуренцию в Китае, подняв акции ИИ-компаний.
Microsoft AI выпустила три базовые модели ИИ: MAI-Transcribe-1 для транскрипции речи на 25 языках, MAI-Voice-1 для генерации аудио и MAI-Image-2 для видео. Они дешевле аналогов от Google и OpenAI, разработаны командой супер-интеллекта под Мустафу Сулемана. Компания сохраняет партнерство с OpenAI, инвестировав более 13 млрд долларов.
Google сделал Search Live доступным по всему миру для пользователей из более 200 стран. Функция позволяет общаться с поиском голосом и камерой, используя модель Gemini 3.1 Flash Live для естественных бесед. Доступно в AI-режиме приложения Google и через Lens.
Финансовые специалисты автоматизируют сложные процессы с мультимодальным ИИ, где Gemini 3.1 Pro лидирует в обработке документов с таблицами, давая прирост 13-15%. Пайплайны строят на двух моделях и событийном подходе для скорости и масштаба. Важно проверять выводы ИИ в финансовой сфере.
Google анонсировал Gemini Embedding 2 — мультимодальную модель эмбеддингов, которая объединяет текст, изображения, видео, аудио и PDF в единое пространство. Она лидирует в бенчмарках над Amazon Nova 2 и Voyage 3.5, поддерживает смешанные запросы и нативную обработку аудио. Модель доступна в Gemini API и Vertex AI с готовыми интеграциями.
Luma AI представила Uni-1 — модель на автотрегрессивном трансформере, объединяющую генерацию и анализ изображений. Она лидирует в RISEBench по логическим задачам, обходя Nano Banana 2 и GPT Image 1.5, и предлагает функции вроде последовательного редактирования и стилизации в 76+ стилях. Доступ появится в Luma Agents и API.
Google DeepMind выпустила preview Gemini 3.1 Flash-Lite — быструю модель с 34 баллами в Intelligence Index Artificial Analysis (+12 к Gemini 2.5 Flash-Lite). Она сохраняет скорость 360+ токенов/с, лидирует в мультимодальных и научных тестах вроде MMMU-Pro (78%) и GPQA Diamond (86,9%), но цена вывода выросла втрое до $1.50 за миллион. Тестирование доступно в Google AI Studio и Vertex AI.
Bytedance выпустила серию Seed2.0, которая конкурирует с топовыми западными ИИ-моделями по тестам, но стоит в разы дешевле. Модели сильны в мультимодальной обработке и олимпиадах, хотя уступают в некоторых задачах. API уже доступен через Doubao и Volcano Engine.
Бенчмарк WorldVQA от Moonshot AI выявил, что топовые мультимодальные модели вроде Gemini 3 Pro (47,4%) и Kimi K2.5 (46,3%) не достигают 50% в точном распознавании визуальных объектов. Модели переоценивают свою уверенность и слабы в редких знаниях о природе и культуре. Это ограничивает их применение в реальных задачах и подчеркивает риски галлюцинаций.