Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
World Labs Фэй-Фэй Ли привлекла $200 млн от Autodesk для интеграции моделей мира в 3D-инструменты. Сотрудничество стартует с развлечений и усилит ИИ-функции Autodesk, включая нейронный CAD. Это часть раунда на фоне переговоров о $5 млрд оценке.
Дизайнер Кейт Бартон сотрудничает с Fiducia AI и IBM, чтобы представить коллекцию на NYFW с многоязычным ИИ-агентом для распознавания одежды и виртуальных примерок. Технологии служат порталом в мир коллекции, вызывая любопытство у гостей. Эксперты видят рост ИИ в моде, но подчёркивают важность человеческого творчества.
Эффективность пайплайна определяет скорость прогресса в машинном обучении. Разбираем пять типичных узких мест — от загрузки данных до инференса — и практические способы их фикса. Быстрые итерации дают преимущество над сложными моделями.
Carbon Robotics представила Large Plant Model (LPM) — ИИ, который мгновенно распознаёт растения и позволяет фермерам бороться с новыми сорняками без переобучения роботов LaserWeeder. Модель обучена на 150+ млн фото с ферм по всему миру и интегрируется в систему Carbon AI. Это ускоряет работу в поле и экономит время.
Google DeepMind добавил в Gemini 3 Flash функцию Agentic Vision: модель теперь активно изучает изображения через Python-код, повышая точность на 5–10%. Стартапы уже используют это для анализа чертежей, а видео демонстрируют разметку и математику. Пока не все работает автоматически, но расширения на подходят.
Новое исследование BabyVision показывает: топовые ИИ-модели вроде Gemini-3-Pro-Preview сильно отстают от людей в базовых визуальных задачах, которые малыши осваивают первыми. Большинство ИИ уступает даже трехлеткам из-за проблем с обработкой геометрии без слов. Бенчмарк поможет отслеживать путь к настоящему визуальному мышлению.
Умные склады отказываются от облачных вычислений в пользу краевого ИИ из-за критических задержек, которые угрожают безопасности и скорости. Роботы обрабатывают данные локально на чипах вроде NVIDIA Jetson, экономя трафик и повышая надёжность. Федеративное обучение и 5G усиливают этот подход, превращая склад в нейронную сеть.
ИИ в рознице APAC переходит к полноценным операциям: 45% покупателей Азии и Австралазии готовы приобретать товары по рекомендациям моделей. Компьютерное зрение автоматизирует магазины вроде Lawson Go и Sora-cam, а агентные системы планируют покупки с учетом локальных привычек и ограничений.
NASA протестировала ИИ для планирования маршрута марсохода Perseverance: ровер проехал 456 метров самостоятельно. Система на базе Claude AI анализирует снимки и рельеф, избегая опасностей, а автопилот берет управление на себя. ИИ обещает революцию в автономных миссиях, включая перепривязку, рои дронов и работу на Титане.
Бывшие сотрудники Google основали InfiniMind, чтобы превращать огромные архивы видео в полезные данные для бизнеса. Стартап привлек $5,8 млн инвестиций и запускает продукты вроде TV Pulse и DeepFrame для анализа контента. Технологии позволяют отвечать на сложные вопросы о видео, включая сюжеты и причинно-следственные связи.
Открытые модели ИИ для редактирования изображений быстро развиваются и предлагают мощные инструменты для творцов. Мы разобрали пять топовых вариантов: от скоростных FLUX.2 до моделей с мышлением вроде Step1X. Их можно запускать локально или в облаке, сохраняя полный контроль.
DeepSeek OCR 2 использует новый энкодер DeepEncoder V2, который перестраивает визуальные токены по смыслу и снижает их число на 80%, превосходя Gemini 3 Pro в разборе документов. Модель лидирует на OmniDocBench v1.5 с 91,09% и открыта на GitHub. Это шаг к универсальной обработке разных типов данных.
Модель D4RT от Google DeepMind реконструирует динамичные сцены из видео в 4D и работает до 300 раз быстрее аналогов. Она объединяет ключевые задачи в единую систему на базе Scene Representation Transformer, что ускоряет обработку и повышает точность. Технология перспективна для роботов, AR и шагов к AGI.
Google представил обновление MedGemma 1.5 — первую открытую модель ИИ для анализа 3D-снимков КТ и МРТ, плюс MedASR для распознавания медицинской речи. Новинка показывает рост точности в диагностике и извлечении данных из историй болезни, но требует доработки и сертификации для клиник. Конкуренция в медицинском ИИ накаляется: OpenAI и Anthropic тоже активно развивают свои решения.
Китайские ученые диагностировали у мультимодальных ИИ-моделей разрыв между пониманием и генерацией изображений, похожий на афазию, и разработали фреймворк UniCorn для его устранения. Модель делится на роли предлагающего, решателя и судьи, что позволяет самоулучшаться без внешних данных. Тесты показывают рост на сложных задачах, хотя отрицания и подсчет остаются проблемой.