Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
ИИ-системы часто не справляются с соединением восприятия и мышления в динамичных условиях, но NVIDIA Cosmos Reason VLM решает эту задачу через интеграцию зрения, языка и мировых знаний. На стриме покажут дообучение модели на своих данных, создание агентов с NIM и VSS, плюс примеры для производства, логистики и безопасности. Зрители получат практические советы и демонстрации для умных рабочих процессов.
Google представила модель Gemini 3, которая лидирует в бенчмарках по рассуждениям и кодингу, с новым интерфейсом Antigravity для разработчиков. Модель поддерживает 650 миллионов пользователей и 13 миллионов разработчиков, демонстрируя прорыв в мультимодальных взаимодействиях. Однако эксперты предупреждают о рисках ажиотажа и необходимости обеспечения надежности.
Canva запустила собственную фундаментальную модель для дизайна, которая генерирует редактируемые элементы в различных форматах. Компания расширила возможности ИИ-ассистента, добавила инструменты для таблиц и виджетов, а также представила новые продукты вроде форм и email-дизайна. Приобретение Affinity сделано бесплатным, с улучшенной интеграцией в платформу.
Китайская компания DeepSeek разработала OCR-модель, которая использует визуальные токены для эффективного хранения информации в ИИ, снижая потребление ресурсов и борясь с "гниением контекста". Это инновационное решение привлекает внимание экспертов и может улучшить работу ИИ-агентов, а также увеличить объем обучающих данных. Однако технология пока находится на ранней стадии и требует дальнейших исследований для динамичного управления памятью.
Приложение для силовых тренировок Ladder интегрирует новую платформу Ladder Nutrition для удобного отслеживания калорий и макронутриентов с использованием ИИ. Пользователи могут фиксировать еду через фото, скан, текст или голос, а система обеспечивает точность даже для международных блюд благодаря партнерствам. Функция дополнена геймификацией и доступна всем подписчикам, что соответствует запросам аудитории.
Технология V2A от Google DeepMind позволяет генерировать синхронизированные саундтреки для видео на основе пикселей и текстовых подсказок, интегрируясь с моделями вроде Veo. Она обеспечивает гибкий контроль над аудио и работает без ручной синхронизации, хотя исследования продолжаются для устранения ограничений, таких как качество входного видео и синхронизация губ. Разработка акцентирует внимание на безопасности через водяные знаки SynthID и консультации с творческим сообществом.
Визуальные языковые модели, такие как Qwen 3 VL, позволяют эффективно обрабатывать изображения и текст, превосходя традиционные методы OCR. Статья демонстрирует их применение для распознавания символов и извлечения данных из документов, а также обсуждает ограничения. Эти модели открывают новые перспективы в анализе визуальной информации.
Gemini Robotics 1.5 представляет собой прорыв в области ИИ-робототехники, позволяя роботам мыслить, планировать и действовать в физическом мире. Модель демонстрирует способность к обучению across embodiments и обеспечивает прозрачность принятия решений.
Luma AI привлекла 900 миллионов долларов в раунде Series C для разработки мультимодального AGI, способного воспринимать мир через видео, изображения, язык и звук. Партнерство с HUMAIN поддержит строительство 2-гигаваттного суперкластера ИИ в Саудовской Аравии, оценивая компанию в 4 миллиарда долларов. Это шаг к "Моделям мира", вызывающий как надежды на инновации в образовании и робототехнике, так и вопросы о контроле и этике.
Google представила Gemini 3 — обновленную мультимодальную модель с улучшенными рассуждениями и генеративными интерфейсами, которая самостоятельно адаптирует вывод под запрос. Новая функция Gemini Agent позволяет выполнять многоэтапные задачи с интеграцией в сервисы вроде Gmail и Calendar. Обновление усиливает связи с продуктами Google, включая поиск и шопинг, а также предлагает инструменты для разработчиков.
Статья объясняет проблемы традиционного разбора документов в RAG, особенно с таблицами и изображениями, и представляет модель ColPali как решение. ColPali преобразует страницы PDF в изображения и использует мультивекторные встраивания для точного извлечения. Примеры демонстрируют, как это улучшает обработку сложного контента.
Статья обзорно описывает модели ИИ для обработки аудио, их типы и применения в реальных сценариях. Рассматриваются причины важности аудиомоделей, включая их роль в мультимодальном ИИ и преимущества прямого анализа. Особое внимание уделено задачам преобразования речи в текст, текста в речь и речи в речь, с примерами использования в повседневных задачах.
Обновленная версия Gemini 2.5 Pro Preview (I/O edition) предлагает значительные улучшения в программировании, особенно для разработки интерактивных веб-приложений. Модель лидирует в WebDev Arena Leaderboard и показывает отличные результаты в мультимодальном анализе, включая понимание видео. Доступна через Google AI Studio, Vertex AI и приложение Gemini для быстрого создания приложений.
Стартап Fal.ai, специализирующийся на хостинге мультимодальных моделей ИИ для медиа, привлек 250 миллионов долларов при оценке более 4 миллиардов. Это следует за раундом Series C на 125 миллионов долларов, когда выручка достигла 95 миллионов, а платформа обслужила 2 миллиона разработчиков. Рост компании обусловлен спросом на видео- и мультимедийные ИИ-решения, с клиентами вроде Adobe и Shopify.
Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.
Gemini 2.5 Flash-Lite — самая быстрая и экономичная модель в семействе Gemini 2.5, предназначенная для масштабного использования в продакшене. Она сочетает высокую скорость, низкую стоимость и расширенные интеллектуальные возможности, уже успешно внедрена в различных проектах.