Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Gemma 3n: Мощный и эффективный ИИ для мобильных устройств

Google анонсировала Gemma 3n — новую мобильную модель ИИ с оптимизированной архитектурой для работы на устройствах. Модель предлагает улучшенную производительность, многомодальность и сниженное потребление памяти, позволяя разработчикам создавать инновационные приложения с акцентом на приватность.

20 мая 2025 г.
6 мин
1

Новый этап в развитии мобильного ИИ

После успешного запуска моделей Gemma 3 и Gemma 3 QAT, представляющих собой передовые открытые модели, способные работать на одном облачном или настольном ускорителе, мы продвигаем наше видение доступного искусственного интеллекта ещё дальше. Gemma 3 предоставила разработчикам мощные возможности, и теперь мы расширяем это видение на высокопроизводительный ИИ, работающий в реальном времени непосредственно на устройствах, которые вы используете каждый день — ваших телефонах, планшетах и ноутбуках.

Чтобы обеспечить следующее поколение ИИ на устройствах и поддержать широкий спектр приложений, включая расширение возможностей Gemini Nano, мы разработали новую, передовую архитектуру. Этот фундамент следующего поколения создан в тесном сотрудничестве с лидерами мобильного аппаратного обеспечения, такими как Qualcomm Technologies, MediaTek и System LSI бизнес Samsung, и оптимизирован для сверхбыстрого многомодального ИИ, обеспечивая по-настоящему персонализированный и приватный опыт прямо на вашем устройстве.

Gemma 3n — это наша первая открытая модель, построенная на этой революционной общей архитектуре, позволяющая разработчикам уже сегодня начать экспериментировать с этой технологией в рамках раннего предварительного просмотра. Та же передовая архитектура также питает следующее поколение Gemini Nano, которое принесёт эти возможности в широкий спектр функций в приложениях Google и нашей экосистеме на устройствах, и станет доступно позже в этом году. Gemma 3n позволяет вам начать строить на этом фундаменте, который появится на основных платформах, таких как Android и Chrome.

Производительность и эффективность

На диаграмме ниже представлены рейтинги моделей ИИ по оценкам Chatbot Arena Elo; более высокие баллы (верхние числа) указывают на большее предпочтение пользователей. Gemma 3n занимает высокие позиции как среди популярных проприетарных, так и открытых моделей.

Рейтинг моделей по Chatbot Arena Elo

Gemma 3n использует инновацию Google DeepMind под названием Per-Layer Embeddings (PLE), которая значительно сокращает использование оперативной памяти. Хотя исходное количество параметров составляет 5 млрд и 8 млрд, эта инновация позволяет запускать более крупные модели на мобильных устройствах или транслировать их из облака в реальном времени, с накладными расходами памяти, сопоставимыми с моделями на 2 млрд и 4 млрд параметров, что означает, что модели могут работать с динамическим объёмом памяти всего 2 ГБ и 3 ГБ. Подробнее об этом можно узнать в нашей документации.

Изучая Gemma 3n, разработчики могут получить ранний предварительный просмотр основных возможностей открытой модели и инноваций мобильной архитектуры, которые будут доступны на Android и Chrome с Gemini Nano.

В этом посте мы рассмотрим новые возможности Gemma 3n, наш подход к ответственному развитию и как вы можете получить доступ к предварительному просмотру уже сегодня.

Ключевые возможности Gemma 3n

Разработанная для быстрого и эффективного ИИ-опыта, работающего локально, Gemma 3n предоставляет:

  • Оптимизированная производительность и эффективность на устройстве: Gemma 3n начинает отвечать примерно в 1,5 раза быстрее на мобильных устройствах с значительно лучшим качеством (по сравнению с Gemma 3 4B) и уменьшенным объёмом памяти благодаря инновациям, таким как Per Layer Embeddings, общий доступ к ключевым значениям (KVC sharing) и продвинутое квантование активаций.
  • Гибкость «много в одном»: Модель с активным объёмом памяти 4B, которая изначально включает вложенную передовую подмодель с активным объёмом памяти 2B (благодаря обучению по методу MatFormer). Это обеспечивает гибкость для динамического балансирования между производительностью и качеством на лету без необходимости размещения отдельных моделей. Мы также представляем возможность «смешивания и соответствия» в Gemma 3n для динамического создания подмоделей из модели 4B, которые могут оптимально подходить для вашего конкретного случая использования и связанного с ним компромисса между качеством и задержкой. Следите за новостями об этом исследовании в нашем предстоящем техническом отчёте.
  • Приватность и готовность к работе офлайн: Локальное выполнение позволяет функциям, которые уважают конфиденциальность пользователя и работают надёжно, даже без подключения к интернету.
  • Расширенное многомодальное понимание с аудио: Gemma 3n может понимать и обрабатывать аудио, текст и изображения, а также предлагает значительно улучшенное понимание видео. Её аудио возможности позволяют модели выполнять высококачественное автоматическое распознавание речи (транскрипция) и перевод (речь в переведённый текст). Кроме того, модель принимает перемешанные входные данные across модальностей, обеспечивая понимание сложных многомодальных взаимодействий. (Публичная реализация появится скоро).
  • Улучшенные многоязычные возможности: Улучшенная многоязычная производительность, особенно на японском, немецком, корейском, испанском и французском языках. Сильная производительность отражена на многоязычных тестах, таких как 50,1% на WMT24++ (ChrF).

Производительность в тестах MMLU

На диаграмме ниже показана производительность MMLU в сравнении с размером модели для возможности «смешивания и соответствия» (предобученной) Gemma 3n.

Производительность MMLU

Открытие новых возможностей в движении

Gemma 3n позволит разработать новую волну интеллектуальных приложений для использования в пути, предоставляя разработчикам возможность:

  1. Создавать живые интерактивные experience, которые понимают и реагируют на визуальные и аудиальные сигналы из окружения пользователя в реальном времени.
  2. Обеспечивать глубокое понимание и контекстную генерацию текста с использованием комбинированных аудио, изображений, видео и текстовых входных данных — всё обрабатывается приватно на устройстве.
  3. Разрабатывать продвинутые аудио-центричные приложения, включая транскрипцию речи в реальном времени, перевод и богатые голосовые взаимодействия.

Вот обзор и типы experience, которые вы можете создавать:

Ответственное развитие вместе

Наша приверженность ответственному развитию ИИ имеет первостепенное значение. Gemma 3n, как и все модели Gemma, прошла тщательные оценки безопасности, управление данными и тонкую настройку в соответствии с нашими политиками безопасности. Мы подходим к открытым моделям с осторожной оценкой рисков, постоянно совершенствуя наши практики по мере развития ландшафта ИИ.

Начните: Предварительный просмотр Gemma 3n сегодня

Мы рады предоставить вам доступ к Gemma 3n через предварительный просмотр, начиная с сегодняшнего дня:

Начальный доступ (доступно сейчас):

  • Исследование в облаке с Google AI Studio: Попробуйте Gemma 3n прямо в браузере на Google AI Studio — никакой настройки не требуется. Изучите её возможности по работе с текстом мгновенно.
  • Разработка на устройстве с Google AI Edge: Для разработчиков, желающих интегрировать Gemma 3n локально, Google AI Edge предоставляет инструменты и библиотеки. Вы можете начать работать с возможностями понимания и генерации текста и изображений уже сегодня.

Gemma 3n знаменует следующий шаг в демократизации доступа к передовому и эффективному ИИ. Мы невероятно excited увидеть, что вы создадите, поскольку мы постепенно делаем эту технологию доступной, начиная с сегодняшнего предварительного просмотра.

Изучите это объявление и все обновления Google I/O 2025 на io.google с 22 мая.