Transformer

15 публикаций по теме

Transformer

Бывший топ-исследователь OpenAI объясняет успех Google

Бывший ведущий исследователь OpenAI Джерри Творек ушёл из компании, чтобы заняться рискованными проектами, и объясняет, почему Google смог догнать лидеров. Он критикует застой в индустрии, фокусирующейся на Transformer, и видит будущее в новых архитектурах с непрерывным обучением. По его прогнозу, AGI ждёт нас к 2029 году.

5 мин

24 января 2026 г.

Новости

Falcon H1R 7B на уровне моделей в 7 раз крупнее

Технологический инновационный институт из Абу-Даби представил Falcon H1R 7B — модель с 7 миллиардами параметров для рассуждений, которая по бенчмаркам равна конкурентам в 2–7 раз крупнее. Она построена на гибридной Transformer-Mamba архитектуре и уже доступна на Hugging Face с открытой лицензией.

1 мин

5 января 2026 г.

Новости

Nemotron 3 от Nvidia: гибрид для эффективных ИИ-агентов

Nvidia представила линейку Nemotron 3 с гибридной архитектурой Mamba и Transformer для ИИ-агентов, способных работать с контекстом в миллион токенов без перерасхода ресурсов. Версия Nano уже доступна с открытыми весами и датасетами, а Super и Ultra принесут улучшения вроде LatentMoE и multi-token prediction. Это вписывается в тренд компании на быстрые компактные модели.

3 мин

17 декабря 2025 г.

Статьи

Изучаем Triton: реализация Softmax

В этой статье разбирается функция softmax — ключевой элемент нейронных сетей, ее реализация в Triton с учетом градиентов и оптимизаций. Рассматриваются версии на одном и нескольких блоках, тестирование и сравнение производительности с PyTorch. Материал помогает понять, как создавать эффективные ядра для GPU.

12 мин

23 ноября 2025 г.

Новости

Новая модель OpenAI раскрывает механизмы ИИ

OpenAI представила экспериментальную модель weight-sparse transformer, которая помогает раскрывать внутренние механизмы работы ИИ. Несмотря на меньшую мощность по сравнению с GPT-5 или Claude, она облегчает понимание нейронных процессов. Исследователи надеются развить подход до уровня GPT-3 для повышения безопасности систем.

3 мин

15 ноября 2025 г.

Статьи

RF-DETR: Внутренний взгляд на реал-тайм детектор

RF-DETR представляет собой эволюцию моделей обнаружения объектов, начиная от DETR и заканчивая реал-тайм трансформером. Она сочетает деформируемое внимание для эффективности с предобученной основой DINOv2 для адаптивности. Эта архитектура преодолевает ограничения предшественников, обеспечивая высокую производительность на малых объектах и в реальном времени.

Генеративный ИИ для создателей YouTube

Новая технология в YouTube Shorts на базе генеративного ИИ Veo и Imagen 3 через Dream Screen позволит создателям генерировать фоны и короткие видео. Это основано на десятилетии инноваций Google, включая архитектуру Transformer. Такие материалы будут помечены для прозрачности, способствуя творчеству миллионов пользователей.

2 мин

14 октября 2025 г.

Статьи

Создание универсального ИИ-ассистента: видение Google

Google расширяет Gemini до мировой модели, способной симулировать аспекты реального мира и действовать как универсальный ИИ-ассистент. Интеграция возможностей Project Astra и Project Mariner позволяет ИИ выполнять многозадачные операции, улучшая продуктивность и обогащая пользовательский опыт.

5 мин

20 мая 2025 г.

Новости

SnapGen++: ИИ-изображения на iPhone за 1,8 секунды

SnapGen++ от Snap Inc. генерирует изображения 1024×1024 за 1,8 секунды на iPhone 16 Pro Max благодаря диффузионному трансформеру с 0,4 млрд параметров. Модель превосходит крупные аналоги вроде Flux.1-dev и использует инновации вроде Elastic Training и K-DMD для мобильной эффективности. Это первый шаг к серверному качеству ИИ-изображений на смартфонах.

3 мин

18 января 2026 г.

Статьи

Революция GenAI в науке о данных

GenAI меняет data science: фундаментальные модели осваивают табличные данные и временные ряды, обещая zero-shot прогнозы без долгого обучения. Пока они лидируют на бенчмарках, но в реальности сталкиваются с галлюцинациями и простыми задачами; впереди — решение зависимостей переменных. Революция уже зреет, и лидеры внедрят её первыми.

5 мин

18 декабря 2025 г.

Новости

Ashish Vaswani представил Rnj-1: мощная модель для кодинга

Модель Rnj-1 от Essential AI показала выдающиеся результаты в тесте SWE-bench Verified, набрав 20.8 баллов. Разработка модели сосредоточена на улучшении предварительного обучения и снижении вычислительных затрат.

2 мин

13 декабря 2025 г.

Статьи

Модели релевантности как предтеча трансформеров в NLP

Статья прослеживает эволюцию моделирования языка от моделей релевантности Лавренко и Крофта в информационном поиске к архитектуре трансформеров в NLP. RM1 предвосхищает механизм внимания, взвешивая контекст на основе релевантности, что легло в основу современных генеративных ИИ-систем. Анализ включает математические параллели, кодовую реализацию и перспективы нейронных расширений.

18 мин

21 ноября 2025 г.

Статьи

Анализ временных рядов с LLM

Статья раскрывает продвинутые техники инженерии запросов для больших языковых моделей в анализе временных рядов, включая разработку моделей ARIMA, Prophet и LSTM. Рассматриваются методы верификации, интерпретации и практические примеры интеграции LLM в рабочий процесс. Рекомендации помогают оптимизировать запросы для повышения эффективности прогнозирования.

9 мин

9 ноября 2025 г.

Новости

RT-2: модель для преобразования зрения и языка в действия

Robotic Transformer 2 (RT-2) — это передовая модель видения-языка-действия, которая интегрирует веб-данные и роботизированные демонстрации для улучшенного управления роботами. Она демонстрирует превосходное обобщение на новые сценарии, включая семантическое рассуждение и цепочку мыслей, достигая успеха до 90% в задачах. Разработка опирается на PaLI-X и PaLM-E, обеспечивая перенос знаний из интернета в робототехнику.

7 мин

14 октября 2025 г.

Новости

Классификация пыльцы с помощью CNN и Vision Transformers

Проект по визуальной классификации пыльцы использует новые наборы данных и модели машинного обучения, включая CNN и Vision Transformers, для точного распознавания видов пыльцы. Существующие наборы данных анализируются, а новый набор из 200 изображений на класс без окраски позволяет обучать эффективные классификаторы. Трансформер для зрения достиг идеальной точности 1.00 на одном из наборов, превосходя традиционные модели.

18 мин

13 октября 2025 г.

Показаны все статьи (15)

Transformer

Бывший топ-исследователь OpenAI объясняет успех Google

Falcon H1R 7B на уровне моделей в 7 раз крупнее

Nemotron 3 от Nvidia: гибрид для эффективных ИИ-агентов

Изучаем Triton: реализация Softmax

Новая модель OpenAI раскрывает механизмы ИИ

RF-DETR: Внутренний взгляд на реал-тайм детектор

Генеративный ИИ для создателей YouTube

Создание универсального ИИ-ассистента: видение Google

SnapGen++: ИИ-изображения на iPhone за 1,8 секунды

Революция GenAI в науке о данных

Ashish Vaswani представил Rnj-1: мощная модель для кодинга

Модели релевантности как предтеча трансформеров в NLP

Анализ временных рядов с LLM

RT-2: модель для преобразования зрения и языка в действия

Классификация пыльцы с помощью CNN и Vision Transformers

Сейчас в тренде

Популярные темы