Обычный Markdown-файл способен повысить эффективность GPT-5.5 более чем на 20 баллов в процедурных задачах. Такой результат обещает SkillOpt — метод от Microsoft и трёх китайских университетов, который тренирует документы с инструкциями для ИИ-агентов по аналогии с обучением весов модели.
Подобные инструкционные документы, называемые «навыками», уже широко применяются в коммерческих продуктах. Например, в прошлом году Anthropic добавила в Claude модульную систему навыков, которая автоматически подгружает инструкции, скрипты и ресурсы в зависимости от задачи.
Навыки обычно объединяют описания процедур, правила использования инструментов, форматы вывода и известные типы сбоев, и они стали стандартным подходом. Однако до сих пор, как утверждают авторы исследования, их либо писали вручную, либо генерировали за один проход языковой моделью, либо поверхностно дорабатывали. Ни один из этих способов не работает как полноценный оптимизатор и не гарантирует действительное улучшение навыка.

Документ навыка становится обучаемым состоянием
SkillOpt рассматривает документ навыка как внешнее, обучаемое состояние для замороженной целевой модели. Вторая языковая модель выступает в роли оптимизатора. Она читает логи запусков агента, выявляет повторяющиеся ошибки и успешные паттерны, а затем предлагает ограниченные правки: добавление, удаление или замену отдельных фрагментов. Каждое изменение принимается только при улучшении результатов на отложенном валидационном наборе.
Авторы переносят несколько концепций глубокого обучения на текстовый уровень. Своеобразная «скорость обучения» ограничивает количество правок за шаг. Планировщик уменьшает размер шага от эпохи к эпохе. Отклонённые правки попадают в буфер и служат отрицательными примерами для анализа. В конце каждой эпохи медленное обновление сохраняет стабильные направления правок — аналогично сглаживанию градиента.

Практическую ценность обеспечивает чёткое разделение обучения и использования. Модель-оптимизатор работает только во время тренировки, а в режиме инференса целевая модель просто получает на вход Markdown-файл объёмом 300–2000 токенов.
Стабильное превосходство над аналогами
Метод протестировали на шести бенчмарках: поиск, электронные таблицы, анализ документов, математика и воплощённые действия. В роли целевых моделей выступили семь систем, включая GPT-5.5 и меньшую Qwen3.5-4B. Задачи решались как в прямом чате, так и в агентных средах Codex и Claude Code.
Во всех комбинациях SkillOpt лидирует или показывает результаты на уровне лучших методов. Это справедливо при сравнении с навыками, написанными вручную, сгенерированными за один проход LLM, а также с Trace2Skill, TextGrad, GEPA и EvoSkill. Для GPT-5.5 в чате средний прирост составил около 23 баллов.
Наибольший выигрыш — в задачах с жёсткими требованиями к формату и использованием инструментов, например редактировании таблиц. Небольшие модели тоже выигрывают: авторы считают, что хорошо обученный навык даёт процедурные знания, которых им не хватает в весах.

Навыки переносятся между моделями и средами
Ключевое свойство — переносимость. Навык, обученный на крупной модели, улучшает и меньшие модели того же семейства. Навык для таблиц, обученный в среде Codex, без изменений работает в Claude Code, достигая той же производительности, что и навык, обученный напрямую в Claude Code. Математический навык, оптимизированный на олимпиадных задачах, даёт прирост на родственном бенчмарке без дообучения.
Абляционные исследования объясняют стабильность. Без ограниченного бюджета правок навык «дрейфует» слишком сильно. Без буфера для отклонённых правок оптимизатор повторяет одни и те же неудачные попытки.
Удаление медленного обновления в конце эпохи обрушивает результат SpreadsheetBench более чем на двадцать пунктов — крупнейшее падение в эксперименте. Только сочетание ограниченного шага, валидации, отрицательной обратной связи и долгосрочной консолидации превращает обучение навыка в контролируемый оптимизационный процесс, утверждают авторы.
Короткие, читаемые документы делают основную работу
Итоговые навыки компактны: документы редко превышают 2000 токенов, а улучшения достигаются за счёт одной-четырёх принятых правок за четыре эпохи. В OfficeQA максимальный выигрыш дало единственное изменение.
Выученные правила напоминают заметки опытного специалиста. Для таблиц навык учится сначала проверять структуру листа и записывать непосредственно вычисленные значения во весь целевой диапазон вместо формул Excel.
Для ALFWorld он ведёт журнал посещённых локаций и не идёт к цели, пока не подберёт целевой объект. Для вопросов по документам — привязывает вопрос к нужной строке таблицы перед принятием ответа. Правила описывают процедуры, а не конкретные задачи.
Авторы признают, что метод зависит от надёжного автоматического оценивания. Для открытых задач, где успех трудно измерить, на этапе валидации потребовались бы оценки человека или модели. Кроме того, SkillOpt оптимизирует один документ, а не библиотеку навыков, что может стать узким местом для разнородных доменов.
Место SkillOpt в гонке самообучения
Большинство подходов к самоулучшению в конечном счёте подстраивают веса моделей, но SkillOpt идёт поразительно экономным путём. OpenClaw-RL от принстонских исследователей использует обратную связь от взаимодействий как источник обучения в реальном времени.
MetaClaw извлекает компактные поведенческие правила из неудач и внедряет их в промт, обновляя веса только в простое через обучение с подкреплением. Параллель со SkillOpt: в обоих случаях больше выигрывают слабые модели, которым не хватает процедурных знаний.
Другие группы идут дальше. AutoTTS позволяет агенту-кодеру самостоятельно искать алгоритмы управления рассуждениями, перенося роль человека с дизайна правил на дизайн среды. Hyperagents от Meta оптимизируют сам механизм самоулучшения. SkillOpt же оставляет модель неизменной и меняет лишь читаемый текстовый файл.