Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Nvidia уверяет, что её графические процессоры опережают чипы Google для ИИ на целое поколение, подчёркивая универсальность своей платформы. Компания реагирует на падение акций из-за слухов о сделке Meta с Google и отмечает растущий спрос на свои продукты. Google, в свою очередь, сочетает собственные тензорные процессоры с решениями Nvidia.
Контейнеры Docker упрощают разработку языковых моделей, обеспечивая стабильные и воспроизводимые среды. В статье рассмотрены пять вариантов: от базового CUDA до специализированных для Jupyter и llama.cpp. Они помогают в исследованиях, прототипировании, тонкой настройке и локальном выводе, минимизируя проблемы с зависимостями.
NCCL от NVIDIA помогает масштабировать ИИ-задачи от нескольких GPU до тысяч, поддерживая динамическое изменение размера коммуникаторов для оптимизации затрат и восстановления от сбоев. Коммуникаторы позволяют добавлять или удалять узлы во время работы, а функции вроде ncclCommShrink упрощают процесс. Пример кода показывает, как интегрировать это в распределенный вывод моделей для устойчивости.
Nvidia отчиталась о рекордной выручке в 57 миллиардов долларов за третий квартал, что на 62 процента больше, чем год назад, с чистой прибылью 32 миллиарда долларов. Рост обусловлен спросом на дата-центры и GPU Blackwell, а прогноз на четвертый квартал — 65 миллиардов долларов. Это опровергает разговоры о пузыре в ИИ, подчеркивая устойчивый рост экосистемы.
В этой статье описаны три практических урока из работы с машинным обучением: ведение личных README для удобства в будущем, использование MIG-сегментов для ускорения планирования задач и введение движений для борьбы с длительным сидением. Эти подходы помогают оптимизировать повседневные процессы и поддерживать здоровье. Они основаны на опыте и применимы для специалистов в области ИИ.
В статье разбирается реализация умножения матриц в Triton с акцентом на оптимизации вроде блочного разбиения и согласованности памяти. Рассматривается иерархия памяти GPU на примере A100 и влияние параллелизации на производительность. Эксперименты показывают, как профилирование помогает выявлять bottlenecks в ядрах.
Статья объясняет, как оптимизировать цикл обучения в PyTorch, фокусируясь на конвейере данных для предотвращения голодания GPU. Рассматриваются узкие места, инструменты вроде Dataset, DataLoader и профайлера, а также практические эксперименты с MNIST, показывающие ускорение до 2.52 раза. В конце приведены лучшие практики и перспективы дальнейших улучшений.
Компании Азиатско-Тихоокеанского региона все чаще переносят инфраструктуру ИИ на edge, чтобы справиться с растущими затратами на вывод результатов и задержками. Akamai с Inference Cloud на базе NVIDIA Blackwell помогает решать эти проблемы, делая решения ближе к пользователям. Это особенно важно для отраслей вроде розницы и финансов, где скорость критична.
Модель CorrDiff на базе генеративного ИИ революционизирует детальную прогноз погоды, обходя ограничения традиционных методов и достигая ускорения в 50 раз благодаря оптимизациям в стеке NVIDIA Earth-2. Эти улучшения позволяют масштабировать высокоточные прогнозы для континентов и планеты с низкими вычислительными затратами, делая технологию доступной для метеослужб. Оптимизации охватывают смешанную точность, слияние ядер и кэширование, повышая эффективность на GPU H100 и B200.
Нейронный шейдинг интегрирует обучаемые модели в графический конвейер для улучшения рендеринга в реальном времени. Статья объясняет основы, показывает примеры с mipmap и нейронными сетями, а также применения вроде сжатия текстур. Это позволяет достигать высокого качества без зависимости от роста мощности железа.
Стартап Luminal привлек 5,3 миллиона долларов на разработку оптимизированного фреймворка для GPU, фокусируясь на улучшении компиляторов, подобных CUDA. Основатель Джо Фиоти, ранее работавший в Intel, подчеркивает важность программной доступности для аппаратных инноваций. Компания входит в тренд оптимизации инференса, конкурируя с Baseten, Together AI и другими, несмотря на вызовы от крупных игроков.
Компания Tensormesh вышла из стелс-режима с инвестициями в 4,5 миллиона долларов для коммерциализации утилиты LMCache, которая оптимизирует кэш KV и снижает затраты на inference до десятикратного уровня. Это решение особенно полезно для чат-систем и агентных приложений, где сохраняется и переиспользуется память для повышения эффективности серверов. Благодаря партнерствам с Google и Nvidia, технология уже доказала свою ценность в open-source проектах.
Статья описывает, как DataRobot и NVIDIA помогают строить и масштабировать рабочую силу агентов ИИ. Рассматриваются ключевые требования к стеку, 10 шагов от прототипа к производству и лучшие практики для избежания итерационных циклов. Платформа обеспечивает управление, безопасность и эффективность для корпоративного применения.
Показаны все статьи (13)