Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
В этой статье разбирается функция softmax — ключевой элемент нейронных сетей, ее реализация в Triton с учетом градиентов и оптимизаций. Рассматриваются версии на одном и нескольких блоках, тестирование и сравнение производительности с PyTorch. Материал помогает понять, как создавать эффективные ядра для GPU.
OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.
RF-DETR представляет собой эволюцию моделей обнаружения объектов, начиная от DETR и заканчивая реал-тайм трансформером. Она сочетает деформируемое внимание для эффективности с предобученной основой DINOv2 для адаптивности. Эта архитектура преодолевает ограничения предшественников, обеспечивая высокую производительность на малых объектах и в реальном времени.
Новая технология в YouTube Shorts на базе генеративного ИИ Veo и Imagen 3 через Dream Screen позволит создателям генерировать фоны и короткие видео. Это основано на десятилетии инноваций Google, включая архитектуру Transformer. Такие материалы будут помечены для прозрачности, способствуя творчеству миллионов пользователей.
Google расширяет Gemini до мировой модели, способной симулировать аспекты реального мира и действовать как универсальный ИИ-ассистент. Интеграция возможностей Project Astra и Project Mariner позволяет ИИ выполнять многозадачные операции, улучшая продуктивность и обогащая пользовательский опыт.
Статья прослеживает эволюцию моделирования языка от моделей релевантности Лавренко и Крофта в информационном поиске к архитектуре трансформеров в NLP. RM1 предвосхищает механизм внимания, взвешивая контекст на основе релевантности, что легло в основу современных генеративных ИИ-систем. Анализ включает математические параллели, кодовую реализацию и перспективы нейронных расширений.
Статья раскрывает продвинутые техники инженерии запросов для больших языковых моделей в анализе временных рядов, включая разработку моделей ARIMA, Prophet и LSTM. Рассматриваются методы верификации, интерпретации и практические примеры интеграции LLM в рабочий процесс. Рекомендации помогают оптимизировать запросы для повышения эффективности прогнозирования.
Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.
Проект по визуальной классификации пыльцы использует новые наборы данных и модели машинного обучения, включая CNN и Vision Transformers, для точного распознавания видов пыльцы. Существующие наборы данных анализируются, а новый набор из 200 изображений на класс без окраски позволяет обучать эффективные классификаторы. Трансформер для зрения достиг идеальной точности 1.00 на одном из наборов, превосходя традиционные модели.
Показаны все статьи (9)