SkillOpt Microsoft улучшил GPT-5.5 на 23 пункта

Метод SkillOpt, предложенный Microsoft и тремя университетами, обучает документы с инструкциями для ИИ-агентов подобно весам нейросетей. Это позволяет значительно улучшить производительность GPT-5.5 на процедурных задачах — в среднем на 23 балла. Обученные навыки компактны, переносимы между моделями и не требуют изменения самой модели.

Обычный Markdown-файл способен повысить эффективность GPT-5.5 более чем на 20 баллов в процедурных задачах. Такой результат обещает SkillOpt — метод от Microsoft и трёх китайских университетов, который тренирует документы с инструкциями для ИИ-агентов по аналогии с обучением весов модели.

Подобные инструкционные документы, называемые «навыками», уже широко применяются в коммерческих продуктах. Например, в прошлом году Anthropic добавила в Claude модульную систему навыков, которая автоматически подгружает инструкции, скрипты и ресурсы в зависимости от задачи.

Навыки обычно объединяют описания процедур, правила использования инструментов, форматы вывода и известные типы сбоев, и они стали стандартным подходом. Однако до сих пор, как утверждают авторы исследования, их либо писали вручную, либо генерировали за один проход языковой моделью, либо поверхностно дорабатывали. Ни один из этих способов не работает как полноценный оптимизатор и не гарантирует действительное улучшение навыка.

Схематичный ландшафт потерь, показывающий стабильный путь оптимизации SkillOpt через ограниченные правки навыков и валидационные гейты, в отличие от нестабильных спонтанных обновлений. Таблица справа сопоставляет концепции глубокого обучения с их эквивалентами в пространстве навыков: документ, направление правки, бюджет правок. — SkillOpt обучает документ навыка подобно весам модели, оставляя только изменения, приносящие измеримую пользу. | Изображение: Yang et al.

Документ навыка становится обучаемым состоянием

SkillOpt рассматривает документ навыка как внешнее, обучаемое состояние для замороженной целевой модели. Вторая языковая модель выступает в роли оптимизатора. Она читает логи запусков агента, выявляет повторяющиеся ошибки и успешные паттерны, а затем предлагает ограниченные правки: добавление, удаление или замену отдельных фрагментов. Каждое изменение принимается только при улучшении результатов на отложенном валидационном наборе.

Авторы переносят несколько концепций глубокого обучения на текстовый уровень. Своеобразная «скорость обучения» ограничивает количество правок за шаг. Планировщик уменьшает размер шага от эпохи к эпохе. Отклонённые правки попадают в буфер и служат отрицательными примерами для анализа. В конце каждой эпохи медленное обновление сохраняет стабильные направления правок — аналогично сглаживанию градиента.

Схема пайплайна SkillOpt: замороженный агент и обучаемый документ навыка, модель-оптимизатор, предлагающая правки на каждом мини-пакете, слияние с ранжированием по бюджету правок, валидационный гейт и медленное/мета-обновление в конце эпохи. — Целевая модель заморожена, а вторая модель предлагает небольшие правки, которые проходят только после валидации. | Изображение: Yang et al.

Практическую ценность обеспечивает чёткое разделение обучения и использования. Модель-оптимизатор работает только во время тренировки, а в режиме инференса целевая модель просто получает на вход Markdown-файл объёмом 300–2000 токенов.

Стабильное превосходство над аналогами

Метод протестировали на шести бенчмарках: поиск, электронные таблицы, анализ документов, математика и воплощённые действия. В роли целевых моделей выступили семь систем, включая GPT-5.5 и меньшую Qwen3.5-4B. Задачи решались как в прямом чате, так и в агентных средах Codex и Claude Code.

Во всех комбинациях SkillOpt лидирует или показывает результаты на уровне лучших методов. Это справедливо при сравнении с навыками, написанными вручную, сгенерированными за один проход LLM, а также с Trace2Skill, TextGrad, GEPA и EvoSkill. Для GPT-5.5 в чате средний прирост составил около 23 баллов.

Наибольший выигрыш — в задачах с жёсткими требованиями к формату и использованием инструментов, например редактировании таблиц. Небольшие модели тоже выигрывают: авторы считают, что хорошо обученный навык даёт процедурные знания, которых им не хватает в весах.

Три линейных графика с жёсткой оценкой по контрольным точкам эпох для SpreadsheetBench, SearchQA и LiveMath; каждый показывает кривые для обучающего набора, отбора лучшего и невидимого тестового набора. — В процессе обучения метод обычно выбирает навыки, которые хорошо работают и на невидимых тестовых данных. | Изображение: Yang et al.

Навыки переносятся между моделями и средами

Ключевое свойство — переносимость. Навык, обученный на крупной модели, улучшает и меньшие модели того же семейства. Навык для таблиц, обученный в среде Codex, без изменений работает в Claude Code, достигая той же производительности, что и навык, обученный напрямую в Claude Code. Математический навык, оптимизированный на олимпиадных задачах, даёт прирост на родственном бенчмарке без дообучения.

Абляционные исследования объясняют стабильность. Без ограниченного бюджета правок навык «дрейфует» слишком сильно. Без буфера для отклонённых правок оптимизатор повторяет одни и те же неудачные попытки.

Удаление медленного обновления в конце эпохи обрушивает результат SpreadsheetBench более чем на двадцать пунктов — крупнейшее падение в эксперименте. Только сочетание ограниченного шага, валидации, отрицательной обратной связи и долгосрочной консолидации превращает обучение навыка в контролируемый оптимизационный процесс, утверждают авторы.

Короткие, читаемые документы делают основную работу

Итоговые навыки компактны: документы редко превышают 2000 токенов, а улучшения достигаются за счёт одной-четырёх принятых правок за четыре эпохи. В OfficeQA максимальный выигрыш дало единственное изменение.

Выученные правила напоминают заметки опытного специалиста. Для таблиц навык учится сначала проверять структуру листа и записывать непосредственно вычисленные значения во весь целевой диапазон вместо формул Excel.

Для ALFWorld он ведёт журнал посещённых локаций и не идёт к цели, пока не подберёт целевой объект. Для вопросов по документам — привязывает вопрос к нужной строке таблицы перед принятием ответа. Правила описывают процедуры, а не конкретные задачи.

Авторы признают, что метод зависит от надёжного автоматического оценивания. Для открытых задач, где успех трудно измерить, на этапе валидации потребовались бы оценки человека или модели. Кроме того, SkillOpt оптимизирует один документ, а не библиотеку навыков, что может стать узким местом для разнородных доменов.

Место SkillOpt в гонке самообучения

Большинство подходов к самоулучшению в конечном счёте подстраивают веса моделей, но SkillOpt идёт поразительно экономным путём. OpenClaw-RL от принстонских исследователей использует обратную связь от взаимодействий как источник обучения в реальном времени.

MetaClaw извлекает компактные поведенческие правила из неудач и внедряет их в промт, обновляя веса только в простое через обучение с подкреплением. Параллель со SkillOpt: в обоих случаях больше выигрывают слабые модели, которым не хватает процедурных знаний.

Другие группы идут дальше. AutoTTS позволяет агенту-кодеру самостоятельно искать алгоритмы управления рассуждениями, перенося роль человека с дизайна правил на дизайн среды. Hyperagents от Meta оптимизируют сам механизм самоулучшения. SkillOpt же оставляет модель неизменной и меняет лишь читаемый текстовый файл.

SkillOpt Microsoft улучшил GPT-5.5 на 23 пункта

Документ навыка становится обучаемым состоянием

Стабильное превосходство над аналогами

Навыки переносятся между моделями и средами

Короткие, читаемые документы делают основную работу

Место SkillOpt в гонке самообучения

Горячее

TCS и Anthropic выводят Claude в регулируемые отрасли

ИИ помог снизить ошибку мониторинга ледников до 70 метров

Тепловизоры и ИИ спасают серых китов в заливе Сан-Франциско

Исследование: ИИ-агенты находят правильный файл, но упускают точные строки кода

Как ИИ изменил кибератаки: выводы на основе 832 инцидентов

Сейчас в тренде