Gemma 4 от Google: ИИ на смартфоне без облака

Новая открытая модель Google Gemma 4 полностью обрабатывает текст, изображения и звук прямо на устройстве. С помощью агентных навыков ИИ сам подключается к инструментам вроде Википедии или интерактивных карт, обходясь без облачных сервисов.

Приложение Google AI Edge Gallery для работы с моделью бесплатно доступно в Google Play на Android и App Store на iOS. После выхода Gemma 4 оно поднялось на четвертое место среди самых скачиваемых бесплатных приложений для продуктивности в App Store iOS, уступив только Claude, Gemini и ChatGPT.

Gemma 4 создана на базе тех же исследований, что и закрытая модель Gemini 3 от Google, но распространяется по лицензии Apache 2.0, удобной для коммерческого использования. Семейство моделей Gemma собрало более 400 миллионов загрузок с момента запуска первого поколения. Все версии работают с текстом, изображениями и аудио на свыше 140 языках.

Четыре варианта модели подходят от смартфонов до серверов

В свежем релизе предусмотрены четыре версии. E2B и E4B предназначены специально для мобильных устройств. Буква "E" обозначает "effective parameters" — количество параметров, реально задействованных при выводе. В квантизованном виде E2B занимает около 1,3 ГБ на устройстве, а E4B — примерно 2,5 ГБ.

Более крупные версии 26B и 31B ориентированы на серверы и мощное железо. Модель 26B использует архитектуру mixture-of-experts с 128 экспертами, при этом активны одновременно лишь 3,8 миллиарда параметров. Плотная модель 31B поддерживает контекстное окно до 256 000 токенов.

Google совместно с Arm и Qualcomm доработал мобильные варианты под актуальные чипы смартфонов. По данным Google, на Android Gemma 4 работает до четырех раз быстрее предыдущего поколения и снижает расход батареи на 60 процентов. Тесты Arm демонстрируют еще большие улучшения: в среднем ускорение в 5,5 раза при обработке, если устройство оснащено свежим чипом Arm с набором инструкций SME2 — расширением для ускорения матричных вычислений ИИ прямо в кремнии.

Агентные навыки позволяют локальному ИИ использовать инструменты

Для приложения требуется Android 12 или iOS 17. Мобильные варианты различаются по потреблению оперативки: квантизованная E2B занимает 1,3 ГБ и запускается на устройствах с 6 ГБ RAM, а E4B требует около 2,5 ГБ под модель и минимум 8 ГБ RAM.

Два скриншота приложения Google AI Edge Gallery на iPhone. Слева управление навыками с опциями вроде interactive-map, kitchen-adventure, calculate-hash и text-spinner. Справа чат с моделью Gemma-4-E2B, где сгенерирован QR-код через агентный навык. — Агентные навыки активируются и настраиваются по отдельности. Справа Gemma 4 создает QR-код локально с использованием навыка на JavaScript.

Помимо обычного чата, распознавания изображений и транскрипции аудио приложение предлагает "агентные навыки" от Google: поиск в Википедии, интерактивные карты, автоматические саммари и карточки для запоминания. Gemma 4 описывает фото, преобразует речь в диаграммы и визуализации, взаимодействует с другими локальными моделями для синтеза речи или генерации изображений. Google демонстрирует это на примере навыка, который распознает и воспроизводит звуки животных.

Распознавание изображений также шагнуло вперед, считает Google. OCR-задачи по извлечению текста из снимков, схем или рукописного ввода стали заметно точнее. Модель надежнее работает с данными о времени — это критично для календарей, напоминаний и будильников.

Два скриншота приложения Google AI Edge Gallery на iPhone. Слева чат с Gemma 4 E2B, вызвавший навык 'mood tracker' на основе текстового ввода с интерактивной панелью. Справа полный вид трекера настроения с баллом 9, графиком тренда и заметкой 'Great time playing pickleball again'. — Gemma 4 улавливает суть запроса пользователя и автоматически запускает подходящий навык — здесь трекер настроения с историей в виде графика.

Отдельные функции не революционны по сравнению с облачными сервисами. Ключевой момент — демонстрационное приложение с чисто локальной моделью на смартфоне самостоятельно применяет такие инструменты. Разработчики создают свои навыки на GitHub и делятся ими. Встроенные инструменты подключаются к интернету, но сама модель функционирует локально, а беседы не сохраняются.

Gemma 4 прокладывает путь к следующему Gemini Nano

Google сообщает, что версии Gemma 4 E2B и E4B легли в основу Gemini Nano 4 — следующего поколения системной модели Android для работы на устройстве. Код, написанный под Gemma 4, сразу подойдет для Gemini Nano 4 на флагманских смартфонах во второй половине года. Gemini Nano уже установлена на 140 миллионах Android-устройств, обеспечивая функции вроде умных ответов и саммари аудио.

В декабре Google показал направление с FunctionGemma — миниатюрной локальной моделью на 270 миллионов параметров, которая направляет команды в приложения телефона. Она переводит естественный язык в структурированные вызовы функций: включение фонарика, создание контактов, отправку email, добавление событий в календарь, показ локаций на карте или открытие настроек Wi-Fi.

Стратегическая ценность локального ИИ проявилась в сделке Apple и Google на миллиард долларов. С января известно, что следующее поколение базовых моделей Apple построит на технологиях Gemini от Google, что радикально обновит Siri в течение 2025 года.

Gemma 4 от Google: агентный ИИ на смартфоне без облака

Четыре варианта модели подходят от смартфонов до серверов

Агентные навыки позволяют локальному ИИ использовать инструменты

Gemma 4 прокладывает путь к следующему Gemini Nano

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде