Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Статья к 70-летию искусственного интеллекта охватывает путь технологии от первых нейросетей до трансформеров и агентных систем. Рассмотрены ключевые вехи, сильные и слабые стороны, вклад IEEE в исследования, стандарты и образование. Особое внимание уделено рискам ИИ и необходимости ответственного развития.
Стартап Subquadratic разработал новую архитектуру LLM под названием SubQ с разреженным вниманием вместо плотного. Модель показала впечатляющие результаты в независимых тестах Appen: скорость до 56 раз выше аналогов и околопредельная производительность в программировании при значительно меньших затратах энергии.
Amazon разрабатывает смартфон Transformer с Alexa и ИИ-функциями, чтобы продвигать свои сервисы. Проект ведёт команда ZeroOne под руководством экс-менеджера Microsoft Джей Алларда. Компания активно инвестирует в ИИ, включая 50 млрд долларов в OpenAI и 200 млрд на развитие технологий.
Материал разбирает 10 концепций агентного ИИ: от языковых моделей как основы анализа до развертывания. Описаны рост благодаря LLM, бизнес-внедрению и фреймворкам вроде LangChain, AutoGPT. Это база для создания автономных агентов с памятью, планированием и защитой.
SnapGen++ от Snap Inc. генерирует изображения 1024×1024 за 1,8 секунды на iPhone 16 Pro Max благодаря диффузионному трансформеру с 0,4 млрд параметров. Модель превосходит крупные аналоги вроде Flux.1-dev и использует инновации вроде Elastic Training и K-DMD для мобильной эффективности. Это первый шаг к серверному качеству ИИ-изображений на смартфонах.
GenAI меняет data science: фундаментальные модели осваивают табличные данные и временные ряды, обещая zero-shot прогнозы без долгого обучения. Пока они лидируют на бенчмарках, но в реальности сталкиваются с галлюцинациями и простыми задачами; впереди — решение зависимостей переменных. Революция уже зреет, и лидеры внедрят её первыми.
Модель Rnj-1 от Essential AI показала выдающиеся результаты в тесте SWE-bench Verified, набрав 20.8 баллов. Разработка модели сосредоточена на улучшении предварительного обучения и снижении вычислительных затрат.
Статья прослеживает эволюцию моделирования языка от моделей релевантности Лавренко и Крофта в информационном поиске к архитектуре трансформеров в NLP. RM1 предвосхищает механизм внимания, взвешивая контекст на основе релевантности, что легло в основу современных генеративных ИИ-систем. Анализ включает математические параллели, кодовую реализацию и перспективы нейронных расширений.
Ноам Шазир, соавтор революционной статьи «Attention Is All You Need» и один из руководителей разработки моделей Gemini, объявил об уходе из Google. Спустя два года после возвращения в компанию он переходит в OpenAI.
Немецкие исследователи разработали Transformer с адаптивными циклами и банками памяти, который превосходит базовые и более крупные модели в математике на 22% и 6,4% соответственно. Циклы помогают в математическом мышлении, память — в повседневных знаниях, а слои специализируются: ранние экономят ресурсы, поздние работают интенсивнее.
Qualcomm AI Research представила фреймворк, сжимающий цепочки рассуждений языковых моделей в 2,4 раза для запуска на смартфонах. Система использует LoRA-адаптеры, обучение с подкреплением и параллельные пути, сохраняя точность после 4-битного сжатия. Пока локальный ИИ остается на стадии демо, без полноценной системной интеграции.
Бывший ведущий исследователь OpenAI Джерри Творек ушёл из компании, чтобы заняться рискованными проектами, и объясняет, почему Google смог догнать лидеров. Он критикует застой в индустрии, фокусирующейся на Transformer, и видит будущее в новых архитектурах с непрерывным обучением. По его прогнозу, AGI ждёт нас к 2029 году.
Технологический инновационный институт из Абу-Даби представил Falcon H1R 7B — модель с 7 миллиардами параметров для рассуждений, которая по бенчмаркам равна конкурентам в 2–7 раз крупнее. Она построена на гибридной Transformer-Mamba архитектуре и уже доступна на Hugging Face с открытой лицензией.
Nvidia представила линейку Nemotron 3 с гибридной архитектурой Mamba и Transformer для ИИ-агентов, способных работать с контекстом в миллион токенов без перерасхода ресурсов. Версия Nano уже доступна с открытыми весами и датасетами, а Super и Ultra принесут улучшения вроде LatentMoE и multi-token prediction. Это вписывается в тренд компании на быстрые компактные модели.
В этой статье разбирается функция softmax — ключевой элемент нейронных сетей, ее реализация в Triton с учетом градиентов и оптимизаций. Рассматриваются версии на одном и нескольких блоках, тестирование и сравнение производительности с PyTorch. Материал помогает понять, как создавать эффективные ядра для GPU.
OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.