Qualcomm сжала цепочки ИИ-рассуждений в 2.4x для смартфонов

Специалисты Qualcomm AI Research создали модульную систему, которая позволяет запускать языковые модели с функциями рассуждения прямо на смартфонах. Она уменьшает объем многословных мыслительных процессов этих моделей в 2,4 раза.

Модели рассуждений на мобильных устройствах сталкиваются с серьезными ограничениями: их длинные цепочки мыслей порождают огромное количество токенов, что приводит к перегрузке памяти и быстрому расходу заряда батареи. Новый подход Qualcomm решает эти проблемы и делает возможным работу таких моделей на смартфонах.

Как указано в исследовании, разработчики видят применение в умных персональных ассистентах, способных самостоятельно планировать многоэтапные задачи и взаимодействовать с приложениями, интерфейсами устройств и внешними сервисами. Локальный запуск обеспечивает безопасность данных, минимальные задержки и независимость от интернета.

Единая базовая модель с переключением режимов

Вместо создания новой модели с нуля авторы выбрали модульный метод. В основе лежит стандартная языковая модель без рассудительных способностей (Qwen2.5-7B-Instruct), дополненная LoRA-адаптерами — компактными модулями, которые активируются по необходимости. Такая модель может быстро отвечать как чат-бот или глубоко размышлять в зависимости от запроса.

Схематическое изображение фреймворка Qualcomm: слева архитектура модели с блоками Transformer, классификатором Switcher и LoRA-адаптерами; справа сверху диаграмма параллельной генерации путей решений с Verification Head; справа снизу полный пайплайн от обучения и квантизации до экспорта модели и развертывания на устройстве — Слева: модульная архитектура с классификатором и LoRA-адаптерами. Справа сверху: параллельная стратегия рассуждений. Справа снизу: процесс от обучения до запуска на устройстве. Изображение: Qualcomm AI

Обучение требуется лишь для примерно 4 процентов параметров, отмечают исследователи. При этом производительность приближается к показателям DeepSeek-R1-Distill-Qwen-7B, но с меньшими затратами на доработку. Встроенный классификатор сам определяет для каждого запроса, нужен ли сложный режим рассуждений, что экономит ресурсы на простых вопросах.

Обучение с подкреплением сокращает избыток токенов до 8 раз

После базовой настройки модели начинают генерировать чрезмерно длинные ответы. Они часто находят верное решение быстро, но затем тратят тысячи токенов на неоднократные проверки. Это явление исследователи называют «эпистемической нерешительностью», а в научном сообществе оно известно как «передумывание».

Чтобы справиться с этим, команда применила обучение с подкреплением, которое штрафует за слишком развернутые ответы. В среднем длина сокращается в 2,4 раза, а на отдельных задачах — до 8 раз. Пример из исследования: упрощение алгебраического выражения, на которое базовая модель потратила 3118 токенов, после оптимизации решается за 810 токенов. Точность при этом почти не страдает.

Сравнение ответов двух моделей на алгебраическую задачу. Верхний базовый вариант — 3118 токенов с выделенными красным избыточными проверками; нижний оптимизированный — 810 токенов без повторений — Сверху: задача. Посередине: базовый ответ на 3118 токенов с множеством циклов верификации (красным). Снизу: оптимизированный вариант на 810 токенов. Оба приводят к одному результату. Изображение: Qualcomm AI Research

Первая попытка ограничить длину обернулась проблемой: модель формально завершала блок рассуждений, но переносила размышления в основную часть ответа. Пришлось переработать функцию вознаграждения, чтобы учитывать общую длину, — только тогда система перестала обходить ограничения.

Параллельные пути решений и сжатие до 4 бит для практики

Фреймворк поддерживает одновременный поиск нескольких путей решения. Небольшая оценочная голова на базовой модели определяет наиболее вероятный правильный вариант. При восьми параллельных запусках точность на бенчмарке MATH500 растет примерно на 10 процентов без заметного удлинения времени ответа, как показано в исследовании. Причина в том, что на мобильных устройствах генерация токенов ограничена доступом к памяти, а не вычислениями, поэтому параллельные потоки используют простоевую мощность.

Слева: модель после RL-оптимизации (зеленый) дает короче ответы, чем базовая (красный), с чуть большей точностью. Справа: распределение сокращения длины по задачам, в среднем 2,4 раза — Слева: оптимизированная RL-модель (зеленый) генерирует заметно короче базовую (красный) с немного выше точностью. Справа: распределение сокращений длины, среднее — 2,4 раза. Изображение: Qualcomm AI Research

Для реального запуска на смартфоне веса модели квантуют до 4 бит. Адаптеры рассуждений дообучают уже на сжатой версии; иначе выходит бессмысленный текст, предупреждают авторы. Несмотря на такое сильное сжатие, итоговая модель теряет всего около 2 процентов точности по сравнению с несжатой. На странице проекта есть видео с демонстрацией работы на мобильных устройствах.

Локальный ИИ на устройствах пока не вышел за рамки демонстраций

Qualcomm давно продвигает ИИ-модели для мобильных платформ, выпустив 80 оптимизированных моделей для Snapdragon и представив оркестратор ИИ, который связывает личные данные, приложения и локальные модели. Google тоже экспериментирует, показывая, как компактные языковые модели работают на Android с помощью FunctionGemma и AI Edge Gallery.

Однако все эти инициативы остаются на уровне технических прототипов. Для глубокой интеграции в систему — когда ассистент обращается к почте, фото и календарю — компании по-прежнему полагаются на облачные решения. Недавно анонсированная Google функция «Personal Intelligence» связывает Gemini с Gmail, Google Photos и Поиском, но полностью работает на серверах.

Qualcomm сокращает цепочки рассуждений ИИ в 2,4 раза для смартфонов

Единая базовая модель с переключением режимов

Обучение с подкреплением сокращает избыток токенов до 8 раз

Параллельные пути решений и сжатие до 4 бит для практики

Локальный ИИ на устройствах пока не вышел за рамки демонстраций

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде