Новая открытая модель Google Gemma 4 полностью обрабатывает текст, изображения и звук прямо на устройстве. С помощью агентных навыков ИИ сам подключается к инструментам вроде Википедии или интерактивных карт, обходясь без облачных сервисов.
Приложение Google AI Edge Gallery для работы с моделью бесплатно доступно в Google Play на Android и App Store на iOS. После выхода Gemma 4 оно поднялось на четвертое место среди самых скачиваемых бесплатных приложений для продуктивности в App Store iOS, уступив только Claude, Gemini и ChatGPT.
Gemma 4 создана на базе тех же исследований, что и закрытая модель Gemini 3 от Google, но распространяется по лицензии Apache 2.0, удобной для коммерческого использования. Семейство моделей Gemma собрало более 400 миллионов загрузок с момента запуска первого поколения. Все версии работают с текстом, изображениями и аудио на свыше 140 языках.
Четыре варианта модели подходят от смартфонов до серверов
В свежем релизе предусмотрены четыре версии. E2B и E4B предназначены специально для мобильных устройств. Буква "E" обозначает "effective parameters" — количество параметров, реально задействованных при выводе. В квантизованном виде E2B занимает около 1,3 ГБ на устройстве, а E4B — примерно 2,5 ГБ.
Более крупные версии 26B и 31B ориентированы на серверы и мощное железо. Модель 26B использует архитектуру mixture-of-experts с 128 экспертами, при этом активны одновременно лишь 3,8 миллиарда параметров. Плотная модель 31B поддерживает контекстное окно до 256 000 токенов.
Google совместно с Arm и Qualcomm доработал мобильные варианты под актуальные чипы смартфонов. По данным Google, на Android Gemma 4 работает до четырех раз быстрее предыдущего поколения и снижает расход батареи на 60 процентов. Тесты Arm демонстрируют еще большие улучшения: в среднем ускорение в 5,5 раза при обработке, если устройство оснащено свежим чипом Arm с набором инструкций SME2 — расширением для ускорения матричных вычислений ИИ прямо в кремнии.
Агентные навыки позволяют локальному ИИ использовать инструменты
Для приложения требуется Android 12 или iOS 17. Мобильные варианты различаются по потреблению оперативки: квантизованная E2B занимает 1,3 ГБ и запускается на устройствах с 6 ГБ RAM, а E4B требует около 2,5 ГБ под модель и минимум 8 ГБ RAM.

Помимо обычного чата, распознавания изображений и транскрипции аудио приложение предлагает "агентные навыки" от Google: поиск в Википедии, интерактивные карты, автоматические саммари и карточки для запоминания. Gemma 4 описывает фото, преобразует речь в диаграммы и визуализации, взаимодействует с другими локальными моделями для синтеза речи или генерации изображений. Google демонстрирует это на примере навыка, который распознает и воспроизводит звуки животных.
Распознавание изображений также шагнуло вперед, считает Google. OCR-задачи по извлечению текста из снимков, схем или рукописного ввода стали заметно точнее. Модель надежнее работает с данными о времени — это критично для календарей, напоминаний и будильников.

Отдельные функции не революционны по сравнению с облачными сервисами. Ключевой момент — демонстрационное приложение с чисто локальной моделью на смартфоне самостоятельно применяет такие инструменты. Разработчики создают свои навыки на GitHub и делятся ими. Встроенные инструменты подключаются к интернету, но сама модель функционирует локально, а беседы не сохраняются.
Gemma 4 прокладывает путь к следующему Gemini Nano
Google сообщает, что версии Gemma 4 E2B и E4B легли в основу Gemini Nano 4 — следующего поколения системной модели Android для работы на устройстве. Код, написанный под Gemma 4, сразу подойдет для Gemini Nano 4 на флагманских смартфонах во второй половине года. Gemini Nano уже установлена на 140 миллионах Android-устройств, обеспечивая функции вроде умных ответов и саммари аудио.
В декабре Google показал направление с FunctionGemma — миниатюрной локальной моделью на 270 миллионов параметров, которая направляет команды в приложения телефона. Она переводит естественный язык в структурированные вызовы функций: включение фонарика, создание контактов, отправку email, добавление событий в календарь, показ локаций на карте или открытие настроек Wi-Fi.
Стратегическая ценность локального ИИ проявилась в сделке Apple и Google на миллиард долларов. С января известно, что следующее поколение базовых моделей Apple построит на технологиях Gemini от Google, что радикально обновит Siri в течение 2025 года.