Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Zhipu AI представила GLM-5V-Turbo — мультимодальную модель, которая превращает дизайн-макеты в исполняемый фронтенд-код и интегрируется в агенты вроде OpenClaw. Она лидирует в бенчмарках по мультимодальному кодингу и GUI-задачам, сохраняя силу в текстовых тестах. Модель доступна через API по цене $1.20/млн входных и $4/млн выходных токенов.
Фронтирные ИИ-модели уверенно описывают несуществующие изображения в 60–100% случаев, достигая 70–80% баллов бенчмарков без визуала. Текстовая модель на 3 млрд параметров обошла мультимодалки и радиологов, а метод B-Clean выявил утечки в тестах. Это подрывает доверие к визуальным претензиям ИИ и требует новых подходов к оценке.
Google расширяет ИИ-функцию Search Live на все регионы с AI Mode, охватывая 200+ стран. Она использует камеру для реал-тайм диалогов на базе Gemini 3.1 Flash Live. Параллельно Live Translate в Google Translate выходит на iOS и новые страны с поддержкой 70+ языков.
Финансовые специалисты автоматизируют сложные процессы с мультимодальным ИИ, где Gemini 3.1 Pro лидирует в обработке документов с таблицами, давая прирост 13-15%. Пайплайны строят на двух моделях и событийном подходе для скорости и масштаба. Важно проверять выводы ИИ в финансовой сфере.
Peacock анонсировала ИИ-функцию Your Bravoverse для фанатов Bravo с аватаром Энди Коэна, вертикальные NBA-трансляции и новые игры вроде Law & Order: Clue Hunter. Сервис расширяет мобильный фокус, чтобы конкурировать с соцсетями. Подписчики выросли до 44 млн, убыток в Q4 2025 — $552 млн.
Elliott Investment Management увеличил долю в Pinterest до 1 миллиарда долларов, поддерживая рост на базе ИИ. Компания планирует выкуп акций на 3,5 миллиарда и отметила рекорды по доходам и поисковым запросам. Инвестиция вышла на фоне падения котировок и сокращений, но сигнализирует веру в стратегию с визуальным поиском и персонализацией.
Honor раскрыла детали смартфона Robot phone с подвижной 200-МП камерой на гимбале: она танцует под музыку, кивает в ответах и отслеживает объекты в видеозвонках. Устройство выйдет во второй половине года, а технология использует материалы от Honor Magic V6 с прочностью 2800 МПа.
ИИ в рознице APAC переходит к полноценным операциям: 45% покупателей Азии и Австралазии готовы приобретать товары по рекомендациям моделей. Компьютерное зрение автоматизирует магазины вроде Lawson Go и Sora-cam, а агентные системы планируют покупки с учетом локальных привычек и ограничений.
Ring запускает магазин приложений для своих камер, чтобы выйти за рамки домашней охраны с помощью ИИ. Партнеры предлагают решения для ухода за пожилыми, анализа очередей и мониторинга аренды, но запрещены функции вроде распознавания лиц. На старте 15 приложений, комиссия Ring — 10%, цель — сотни в разных сферах.
Naver разработала Seoul World Model — видео-модель на базе 1,2 млн панорам Street View Сеула, которая генерирует реалистичные видео по реальным маршрутам без вымысла. Она решает проблемы с временными объектами, пробелами в данных и накоплением ошибок, обобщаясь на другие города вроде Пусана и Энн-Арбора. Модель превосходит конкурентов и открывает применение в автономном вождении и урбанистике.
AI2 выпустила полностью открытый веб-агент MolmoWeb, работающий только со скриншотами браузера, с моделями 4B и 8B параметров, обходящими крупные закрытые системы в тестах. Датасет MolmoWebMix включает 36 тысяч человеческих сессий и синтетические траектории, обеспечивая лидерство среди открытых агентов на WebVoyager (78,2%). Модель доступна на Hugging Face и GitHub, продвигая открытость в веб-автоматизации.
Nvidia создала SoC для постоянного зрения, который ловит лица за 787 мкс с 99% точностью при мощности ниже 5 мВт и 60 fps. Технология Alpha-Vision хранит 2 МБ данных в SRAM локально и применяет "race to sleep" для экономии. Это полезно для ноутбуков, роботов, дронов и беспилотных машин.
Niantic Spatial использует данные из Pokémon GO — 30 миллиардов фото с точными геотэгами — для визуальной навигации роботов с погрешностью в сантиметры. Партнёрство с Coco Robotics тестирует модель в доставках по плотным городам, где GPS бесполезен. Технология обещает 'живые карты' для машин и взрыв инноваций в робототехнике.
MyFitnessPal приобрела ИИ-приложение Cal AI, созданное подростками и набравшее 15 миллионов загрузок с выручкой 30 миллионов долларов за два года. Команда из семи человек сохранена, сервис интегрирован с базой данных на 20 миллионов продуктов. Приложения останутся отдельными, ориентированными на разные аудитории: скорость против точности.
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
World Labs Фэй-Фэй Ли привлекла $200 млн от Autodesk для интеграции моделей мира в 3D-инструменты. Сотрудничество стартует с развлечений и усилит ИИ-функции Autodesk, включая нейронный CAD. Это часть раунда на фоне переговоров о $5 млрд оценке.