Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Немецкие исследователи разработали Transformer с адаптивными циклами и банками памяти, который превосходит базовые и более крупные модели в математике на 22% и 6,4% соответственно. Циклы помогают в математическом мышлении, память — в повседневных знаниях, а слои специализируются: ранние экономят ресурсы, поздние работают интенсивнее.
Qualcomm AI Research представила фреймворк, сжимающий цепочки рассуждений языковых моделей в 2,4 раза для запуска на смартфонах. Система использует LoRA-адаптеры, обучение с подкреплением и параллельные пути, сохраняя точность после 4-битного сжатия. Пока локальный ИИ остается на стадии демо, без полноценной системной интеграции.
Бывший ведущий исследователь OpenAI Джерри Творек ушёл из компании, чтобы заняться рискованными проектами, и объясняет, почему Google смог догнать лидеров. Он критикует застой в индустрии, фокусирующейся на Transformer, и видит будущее в новых архитектурах с непрерывным обучением. По его прогнозу, AGI ждёт нас к 2029 году.
Технологический инновационный институт из Абу-Даби представил Falcon H1R 7B — модель с 7 миллиардами параметров для рассуждений, которая по бенчмаркам равна конкурентам в 2–7 раз крупнее. Она построена на гибридной Transformer-Mamba архитектуре и уже доступна на Hugging Face с открытой лицензией.
Nvidia представила линейку Nemotron 3 с гибридной архитектурой Mamba и Transformer для ИИ-агентов, способных работать с контекстом в миллион токенов без перерасхода ресурсов. Версия Nano уже доступна с открытыми весами и датасетами, а Super и Ultra принесут улучшения вроде LatentMoE и multi-token prediction. Это вписывается в тренд компании на быстрые компактные модели.
В этой статье разбирается функция softmax — ключевой элемент нейронных сетей, ее реализация в Triton с учетом градиентов и оптимизаций. Рассматриваются версии на одном и нескольких блоках, тестирование и сравнение производительности с PyTorch. Материал помогает понять, как создавать эффективные ядра для GPU.
OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.
RF-DETR представляет собой эволюцию моделей обнаружения объектов, начиная от DETR и заканчивая реал-тайм трансформером. Она сочетает деформируемое внимание для эффективности с предобученной основой DINOv2 для адаптивности. Эта архитектура преодолевает ограничения предшественников, обеспечивая высокую производительность на малых объектах и в реальном времени.
Amazon разрабатывает смартфон Transformer с Alexa и ИИ-функциями, чтобы продвигать свои сервисы. Проект ведёт команда ZeroOne под руководством экс-менеджера Microsoft Джей Алларда. Компания активно инвестирует в ИИ, включая 50 млрд долларов в OpenAI и 200 млрд на развитие технологий.
Материал разбирает 10 концепций агентного ИИ: от языковых моделей как основы анализа до развертывания. Описаны рост благодаря LLM, бизнес-внедрению и фреймворкам вроде LangChain, AutoGPT. Это база для создания автономных агентов с памятью, планированием и защитой.
SnapGen++ от Snap Inc. генерирует изображения 1024×1024 за 1,8 секунды на iPhone 16 Pro Max благодаря диффузионному трансформеру с 0,4 млрд параметров. Модель превосходит крупные аналоги вроде Flux.1-dev и использует инновации вроде Elastic Training и K-DMD для мобильной эффективности. Это первый шаг к серверному качеству ИИ-изображений на смартфонах.
GenAI меняет data science: фундаментальные модели осваивают табличные данные и временные ряды, обещая zero-shot прогнозы без долгого обучения. Пока они лидируют на бенчмарках, но в реальности сталкиваются с галлюцинациями и простыми задачами; впереди — решение зависимостей переменных. Революция уже зреет, и лидеры внедрят её первыми.
Модель Rnj-1 от Essential AI показала выдающиеся результаты в тесте SWE-bench Verified, набрав 20.8 баллов. Разработка модели сосредоточена на улучшении предварительного обучения и снижении вычислительных затрат.
Статья прослеживает эволюцию моделирования языка от моделей релевантности Лавренко и Крофта в информационном поиске к архитектуре трансформеров в NLP. RM1 предвосхищает механизм внимания, взвешивая контекст на основе релевантности, что легло в основу современных генеративных ИИ-систем. Анализ включает математические параллели, кодовую реализацию и перспективы нейронных расширений.
Статья раскрывает продвинутые техники инженерии запросов для больших языковых моделей в анализе временных рядов, включая разработку моделей ARIMA, Prophet и LSTM. Рассматриваются методы верификации, интерпретации и практические примеры интеграции LLM в рабочий процесс. Рекомендации помогают оптимизировать запросы для повышения эффективности прогнозирования.
Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.