Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Исследование Apple: управляемость ИИ нестабильна

Исследование Apple выявило хрупкость управляемости ИИ: она сильно колеблется в зависимости от модели и задачи. Тесты на языковых моделях и генераторах изображений показали разрывы в калибровке и охвате. Apple поделилась открытым инструментарием для таких проверок.

25 января 2026 г.
4 мин
30

Новый подход к анализу выявил неожиданную нестабильность в управлении языковыми моделями и генераторами изображений — она сильно меняется в зависимости от конкретной задачи и модели.

Людям легко выполнить просьбу сгенерировать четное или нечетное число. У языковых моделей результаты разнятся: Gemma3-4B справляется почти идеально, а SmolLM3-3B полностью проваливается. Свежие данные от Apple указывают на базовую особенность генеративного ИИ.

Специалисты из Apple и Universitat Pompeu Fabra проверили, насколько реально управлять языковыми моделями и генераторами изображений. Вывод: способность выдавать нужный результат определяется сочетанием модели, задания и промта.

Они разделили два понятия, которые часто путают:

  • Управляемость — это когда модель может достичь желаемого результата из любого начального положения.
  • Калибровка — точность выполнения пользовательского запроса. Модель может в теории генерировать все нужные варианты, но систематически отклоняться от просьбы.

Простые задания показывают неожиданные различия в работе моделей

Тестировали SmolLM3-3B, Qwen3-4B и Gemma3-4B на контроле формальности текста, длины строк и генерации четных или нечетных чисел.

Схема фреймворка: диалоги ИИ как система управления, пример неудач с 5-символьной строкой
Фреймворк рассматривает диалоги ИИ как систему управления: запросы пользователя направляют модель, результаты попадают в пространство измерений. Справа — модель пытается создать строку из 5 символов, но многократно промахивается и достигает цели только после нескольких корректировок. | Изображение: Cheng et al.

В задаче на формальность с 5-shot промптингом Qwen3-4B и Gemma3-4B добились полной управляемости за пять раундов диалога. SmolLM3-3B так и не поддалась. Выявилось сильное перерегулирование: даже при прямом указании целевой формальности модели часто корректировали в обратную сторону чрезмерно.

Задача с четными и нечетными числами подчеркнула непредсказуемость. Qwen3-4B обеспечила идеальную управляемость, Gemma3-4B показала почти безупречную калибровку, но не смогла охватить все пространство измерений полностью.

Графики изменения формальности текста тремя языковыми моделями за пять раундов диалога
Три языковые модели меняют формальность текста за пять раундов. Желтые зоны — достижимые области, серые — недоступные. С 5-shot промптингом (нижний ряд) управляемость растет заметно, кроме SmolLM3-3B. | Изображение: Cheng et al.

Тесты на моделях Qwen от 0.6 до 14 миллиардов параметров подтвердили: чем больше модель, тем лучше управляемость, но ключевые улучшения останавливаются около 4 миллиардов параметров.

Генераторы изображений неточно считают объекты и насыщенность

С текст-to-image моделями вроде FLUX-s и SDXL проверяли контроль количества объектов, их позиций и насыщенности картинок. FLUX-s лидировала по объектам: больше запрошенных — больше на выходе. Однако точное число достигалось редко, средний промах — около 3,5 объектов.

Разрыв между управляемостью и калибровкой был максимальным у насыщенности. FLUX-s и SDXL покрывали весь диапазон значений, но итоговая насыщенность слабо зависела от запроса. Корреляция между желаемым и реальным уровнем — меньше 0,1.

Apple выложила открытый набор инструментов для тестов

Фреймворк опирается на теорию управления и описывает диалоги ИИ как контрольные системы. Методику опубликовали в виде открытого набора инструментов для проверки управляемости моделей.

Исследование охватило модели до 14 миллиардов параметров, без лидеров вроде GPT-5 или Claude 4.5, которыми пользуются миллионы. Авторы уверены: подход универсален и подходит к любым генеративным моделям.

Результаты демонстрируют: даже на базовых задачах ни одна модель или техника промптинга не дает стабильных успехов. Больший размер помогает, но не решает проблему полностью. Нужно проверять управляемость специально, и инструментарий как раз для этого.

Нестабильность — не единственная забота. Данные Anthropic показали, что модели маскируют несоблюдение правил безопасности ради других целей. Кроме того, ИИ распознают тесты и меняют поведение, что подрывает достоверность бенчмарков.