Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Бывший ведущий исследователь OpenAI Джерри Творек ушёл из компании, чтобы заняться рискованными проектами, и объясняет, почему Google смог догнать лидеров. Он критикует застой в индустрии, фокусирующейся на Transformer, и видит будущее в новых архитектурах с непрерывным обучением. По его прогнозу, AGI ждёт нас к 2029 году.
Технологический инновационный институт из Абу-Даби представил Falcon H1R 7B — модель с 7 миллиардами параметров для рассуждений, которая по бенчмаркам равна конкурентам в 2–7 раз крупнее. Она построена на гибридной Transformer-Mamba архитектуре и уже доступна на Hugging Face с открытой лицензией.
Nvidia представила линейку Nemotron 3 с гибридной архитектурой Mamba и Transformer для ИИ-агентов, способных работать с контекстом в миллион токенов без перерасхода ресурсов. Версия Nano уже доступна с открытыми весами и датасетами, а Super и Ultra принесут улучшения вроде LatentMoE и multi-token prediction. Это вписывается в тренд компании на быстрые компактные модели.
В этой статье разбирается функция softmax — ключевой элемент нейронных сетей, ее реализация в Triton с учетом градиентов и оптимизаций. Рассматриваются версии на одном и нескольких блоках, тестирование и сравнение производительности с PyTorch. Материал помогает понять, как создавать эффективные ядра для GPU.
OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.
RF-DETR представляет собой эволюцию моделей обнаружения объектов, начиная от DETR и заканчивая реал-тайм трансформером. Она сочетает деформируемое внимание для эффективности с предобученной основой DINOv2 для адаптивности. Эта архитектура преодолевает ограничения предшественников, обеспечивая высокую производительность на малых объектах и в реальном времени.
Новая технология в YouTube Shorts на базе генеративного ИИ Veo и Imagen 3 через Dream Screen позволит создателям генерировать фоны и короткие видео. Это основано на десятилетии инноваций Google, включая архитектуру Transformer. Такие материалы будут помечены для прозрачности, способствуя творчеству миллионов пользователей.
Google расширяет Gemini до мировой модели, способной симулировать аспекты реального мира и действовать как универсальный ИИ-ассистент. Интеграция возможностей Project Astra и Project Mariner позволяет ИИ выполнять многозадачные операции, улучшая продуктивность и обогащая пользовательский опыт.
SnapGen++ от Snap Inc. генерирует изображения 1024×1024 за 1,8 секунды на iPhone 16 Pro Max благодаря диффузионному трансформеру с 0,4 млрд параметров. Модель превосходит крупные аналоги вроде Flux.1-dev и использует инновации вроде Elastic Training и K-DMD для мобильной эффективности. Это первый шаг к серверному качеству ИИ-изображений на смартфонах.
GenAI меняет data science: фундаментальные модели осваивают табличные данные и временные ряды, обещая zero-shot прогнозы без долгого обучения. Пока они лидируют на бенчмарках, но в реальности сталкиваются с галлюцинациями и простыми задачами; впереди — решение зависимостей переменных. Революция уже зреет, и лидеры внедрят её первыми.
Модель Rnj-1 от Essential AI показала выдающиеся результаты в тесте SWE-bench Verified, набрав 20.8 баллов. Разработка модели сосредоточена на улучшении предварительного обучения и снижении вычислительных затрат.
Статья прослеживает эволюцию моделирования языка от моделей релевантности Лавренко и Крофта в информационном поиске к архитектуре трансформеров в NLP. RM1 предвосхищает механизм внимания, взвешивая контекст на основе релевантности, что легло в основу современных генеративных ИИ-систем. Анализ включает математические параллели, кодовую реализацию и перспективы нейронных расширений.
Статья раскрывает продвинутые техники инженерии запросов для больших языковых моделей в анализе временных рядов, включая разработку моделей ARIMA, Prophet и LSTM. Рассматриваются методы верификации, интерпретации и практические примеры интеграции LLM в рабочий процесс. Рекомендации помогают оптимизировать запросы для повышения эффективности прогнозирования.
Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.
Проект по визуальной классификации пыльцы использует новые наборы данных и модели машинного обучения, включая CNN и Vision Transformers, для точного распознавания видов пыльцы. Существующие наборы данных анализируются, а новый набор из 200 изображений на класс без окраски позволяет обучать эффективные классификаторы. Трансформер для зрения достиг идеальной точности 1.00 на одном из наборов, превосходя традиционные модели.
Показаны все статьи (15)