мультимодальность

47 публикаций по теме

мультимодальность

GLM-5V-Turbo от Zhipu AI превращает дизайн-макеты в готовый фронтенд-код

Zhipu AI представила GLM-5V-Turbo — мультимодальную модель, которая превращает дизайн-макеты в исполняемый фронтенд-код и интегрируется в агенты вроде OpenClaw. Она лидирует в бенчмарках по мультимодальному кодингу и GUI-задачам, сохраняя силу в текстовых тестах. Модель доступна через API по цене $1.20/млн входных и $4/млн выходных токенов.

6 мин

3 апреля 2026 г.

Новости

Пятилетний план Китая определяет цели по ИИ до 2030

Китай в 15-м Пятилетнем плане обозначил цели по ИИ до 2030 года: от чипов и моделей до инфраструктуры и регуляций. Фокус на вычислительных кластерах, мультимодальном ИИ и применении в экономике, услугах, госуправлении. Страна делает ставку на открытые эффективные модели, отличаясь от западного пути.

4 мин

2 апреля 2026 г.

Новости

Gemini 3.1 Flash-Lite от Google DeepMind строит сайты в реальном времени

Google DeepMind представила демо Gemini 3.1 Flash-Lite: модель создает веб-страницы по текстовому запросу почти в реальном времени. Она в 2,5 раза быстрее Gemini 2.5 Flash с генерацией свыше 360 токенов в секунду, но цена вывода выросла до $1,50 за миллион. Подходит для быстрых прототипов интерфейсов, превосходит Claude Opus 4.6 в мультимодальных задачах.

1 мин

24 марта 2026 г.

Новости

Mistral Small 4 бьёт свой вес с 128 экспертными модулями

Mistral AI выпустила Small 4 — компактную модель с 119 млрд параметров, где активируется только 6 млрд из 128 экспертных модулей за запрос. Она на 40% быстрее предыдущей версии и втрое производительнее, поддерживая текст, логику и изображения. Новинка доступна под Apache 2.0 на Hugging Face, Mistral API и Nvidia, а компания присоединяется к Nemotron Coalition.

1 мин

17 марта 2026 г.

Новости

Сотрудники OpenAI намекают на новую омни-модель

Сотрудники OpenAI своими постами в X вызвали обсуждения новой омни-модели как преемницы GPT-4o. Исследователь Brandon McKinzie поддержал идею улучшений. Компания параллельно создает аудио BiDi для естественных прерываемых диалогов с прототипом, который пока нестабилен.

1 мин

9 марта 2026 г.

Новости

Luma запустила ИИ-агентов для креатива на Unified Intelligence

Luma представила платформу Luma Agents на моделях Unified Intelligence для полного цикла креативной работы с текстом, изображениями, видео и аудио. Агенты взаимодействуют с другими ИИ, сохраняют контекст и самокритичны, ускоряя процессы для агентств и брендов вроде Adidas. В примерах — генерация идей из брифа и локализация кампаний за 40 часов вместо года.

4 мин

5 марта 2026 г.

Новости

Qwen3.5 от Alibaba ускоряет гонку моделей

Alibaba открыла доступ к модели Qwen3.5-397B-A17B, которая сочетает текст, изображения и видео в одной архитектуре с 397 миллиардами параметров, из которых активируется 17 миллиардов. Она ускорена до 19 раз по сравнению с предшественниками и лидирует в агентных задачах. Китайские лаборатории продолжают выпускать мощные open-weight модели по низким ценам, усиливая конкуренцию.

5 мин

16 февраля 2026 г.

Новости

ByteDance продвинула ИИ-видео с Seedance 2.0

ByteDance представила Seedance 2.0 — продвинутую мультимодальную модель для генерации видео длиной 4–15 секунд с аудио. Она использует референсы из видео для контроля камеры и редактирования, но пока доступна только в бета-версии. Выпуск усилил конкуренцию в Китае, подняв акции ИИ-компаний.

3 мин

9 февраля 2026 г.

Новости

Microsoft бросает вызов ИИ-соперникам тремя новыми базовыми моделями

Microsoft AI выпустила три базовые модели ИИ: MAI-Transcribe-1 для транскрипции речи на 25 языках, MAI-Voice-1 для генерации аудио и MAI-Image-2 для видео. Они дешевле аналогов от Google и OpenAI, разработаны командой супер-интеллекта под Мустафу Сулемана. Компания сохраняет партнерство с OpenAI, инвестировав более 13 млрд долларов.

3 мин

2 апреля 2026 г.

Новости

Google запустил Search Live глобально с ИИ-камерой

Google сделал Search Live доступным по всему миру для пользователей из более 200 стран. Функция позволяет общаться с поиском голосом и камерой, используя модель Gemini 3.1 Flash Live для естественных бесед. Доступно в AI-режиме приложения Google и через Lens.

1 мин

26 марта 2026 г.

Статьи

Автоматизация сложных финансовых процессов мультимодальным ИИ

Финансовые специалисты автоматизируют сложные процессы с мультимодальным ИИ, где Gemini 3.1 Pro лидирует в обработке документов с таблицами, давая прирост 13-15%. Пайплайны строят на двух моделях и событийном подходе для скорости и масштаба. Важно проверять выводы ИИ в финансовой сфере.

3 мин

24 марта 2026 г.

Новости

Google объединяет текст, изображения, видео и аудио в Gemini Embedding 2

Google анонсировал Gemini Embedding 2 — мультимодальную модель эмбеддингов, которая объединяет текст, изображения, видео, аудио и PDF в единое пространство. Она лидирует в бенчмарках над Amazon Nova 2 и Voyage 3.5, поддерживает смешанные запросы и нативную обработку аудио. Модель доступна в Gemini API и Vertex AI с готовыми интеграциями.

4 мин

11 марта 2026 г.

Новости

Uni-1 от Luma AI обошла Nano Banana 2 и GPT Image 1.5 в логических тестах

Luma AI представила Uni-1 — модель на автотрегрессивном трансформере, объединяющую генерацию и анализ изображений. Она лидирует в RISEBench по логическим задачам, обходя Nano Banana 2 и GPT Image 1.5, и предлагает функции вроде последовательного редактирования и стилизации в 76+ стилях. Доступ появится в Luma Agents и API.

2 мин

8 марта 2026 г.

Новости

Gemini 3.1 Flash-Lite: умнее на 12 баллов, цена втрое выше

Google DeepMind выпустила preview Gemini 3.1 Flash-Lite — быструю модель с 34 баллами в Intelligence Index Artificial Analysis (+12 к Gemini 2.5 Flash-Lite). Она сохраняет скорость 360+ токенов/с, лидирует в мультимодальных и научных тестах вроде MMMU-Pro (78%) и GPQA Diamond (86,9%), но цена вывода выросла втрое до $1.50 за миллион. Тестирование доступно в Google AI Studio и Vertex AI.

2 мин

3 марта 2026 г.

Новости

Seed2.0 от Bytedance усиливает давление на западные ИИ

Bytedance выпустила серию Seed2.0, которая конкурирует с топовыми западными ИИ-моделями по тестам, но стоит в разы дешевле. Модели сильны в мультимодальной обработке и олимпиадах, хотя уступают в некоторых задачах. API уже доступен через Doubao и Volcano Engine.

Мультимодальные ИИ не дотягивают до 50% в распознавании

Бенчмарк WorldVQA от Moonshot AI выявил, что топовые мультимодальные модели вроде Gemini 3 Pro (47,4%) и Kimi K2.5 (46,3%) не достигают 50% в точном распознавании визуальных объектов. Модели переоценивают свою уверенность и слабы в редких знаниях о природе и культуре. Это ограничивает их применение в реальных задачах и подчеркивает риски галлюцинаций.

4 мин

8 февраля 2026 г.

мультимодальность

GLM-5V-Turbo от Zhipu AI превращает дизайн-макеты в готовый фронтенд-код

Пятилетний план Китая определяет цели по ИИ до 2030

Gemini 3.1 Flash-Lite от Google DeepMind строит сайты в реальном времени

Mistral Small 4 бьёт свой вес с 128 экспертными модулями

Сотрудники OpenAI намекают на новую омни-модель

Luma запустила ИИ-агентов для креатива на Unified Intelligence

Qwen3.5 от Alibaba ускоряет гонку моделей

ByteDance продвинула ИИ-видео с Seedance 2.0

Microsoft бросает вызов ИИ-соперникам тремя новыми базовыми моделями

Google запустил Search Live глобально с ИИ-камерой

Автоматизация сложных финансовых процессов мультимодальным ИИ

Google объединяет текст, изображения, видео и аудио в Gemini Embedding 2

Uni-1 от Luma AI обошла Nano Banana 2 и GPT Image 1.5 в логических тестах

Gemini 3.1 Flash-Lite: умнее на 12 баллов, цена втрое выше

Seed2.0 от Bytedance усиливает давление на западные ИИ

Мультимодальные ИИ не дотягивают до 50% в распознавании

Сейчас в тренде

Популярные темы