Большие языковые модели без труда решают экзаменационные вопросы, где спотыкаются студенты, но совершенно не понимают, почему эти задачи трудны для людей. Новое исследование раскрыло ключевую слепую зону в том, как ИИ оценивает сложность.
Команда ученых из нескольких университетов США проверила, способны ли LLM оценивать сложность экзаменационных заданий с позиции человека. Они протестировали свыше 20 языковых моделей, в том числе GPT-5, GPT-4o, разнообразные варианты Llama и Qwen, а также модели для рассуждений вроде Deepseek-R1.
Задача для моделей заключалась в прогнозировании уровня сложности вопросов для людей. В качестве эталона взяли реальные оценки из полевых испытаний со студентами по четырем предметным областям: USMLE (медицина), Cambridge (английский язык), SAT Reading/Writing и SAT Math.
Итог: предсказания ИИ слабо коррелировали с человеческим восприятием. Для измерения использовали коэффициент корреляции Спирмена, который отражает степень сходства в ранжировании вопросов от легких к тяжелым. Значение 1 означает полное совпадение, 0 — отсутствие связи. В среднем модели показывали результат ниже 0.50. Более свежие или масштабные варианты не превосходили остальных: GPT-5 набрал лишь 0.34, тогда как старая GPT-4.1 достигла 0.44.
Слишком компетентны, чтобы ощутить трудности
Ученые объясняют проблему "проклятием знаний": системы слишком сильны, чтобы передать ощущения слабых учеников. Задачи, сбивающие студентов-медиков, даются моделям легко, поэтому они не замечают человеческих ловушек. На экзамене USMLE по лицензированию врачей модели уверенно справлялись именно с теми вопросами, где люди чаще всего ошибались.
Авторы пытались обойти барьер, заставляя модели через промты имитировать слабых, средних или сильных студентов. Эффект оказался минимальным. Точность менялась незначительно, обычно менее чем на один процентный пункт. Системы не умеют снижать свой уровень: они находят верные ответы и не повторяют характерные промахи новичков.
Еще одно открытие — полное отсутствие самопонимания. Логично ожидать, что на вопросах, отмеченных как сложные, модель будет чаще ошибаться. Однако показатели едва выходили за уровень случайности. Даже GPT-5 не способна точно угадывать свои слабые места. Самооценка сложности никак не связана с реальными результатами. Авторы уверены: моделям недостает рефлексии для осознания границ.
Модели не копируют человеческое мнение, а вырабатывают коллективную точку зрения. Они ближе друг к другу, чем к реальным данным людей — возникает "машинный консенсус", отклоняющийся от фактов. Системы упорно занижают сложность, укладывая прогнозы в узкий низкий интервал, хотя истинные значения сильно варьируются.
Последствия для ИИ в обучении
Верная калибровка сложности лежит в основе тестового процесса. Она определяет состав программ, генерацию заданий и персонализированные платформы. Раньше все зависело от массовых проверок на студентах. LLM могли бы упростить задачу.
Открытия ставят крест на таких планах. Успех в решении не равен пониманию человеческих ошибок. Нужны новые методы за пределами промтинга, подчеркивают ученые. Подходящий путь — дообучение на примерах студенческих промахов, чтобы сблизить машинный потенциал с траекторией человеческого прогресса.
Статистика OpenAI подчеркивает популярность ИИ в учебе. Среди сценариев в Германии первое место заняло "написание и редактирование", второе — "тьюторинг и образование".
Экс-сотрудник OpenAI Андреј Карпати призвал кардинально изменить подход к школе. По его словам, внеурочные задания наверняка задействуют ИИ, а детекторы ненадежны. Вместо борьбы стоит перейти к "перевернутому классу": контроль в учреждении, подготовка с ИИ дома. Итог — умение опираться на технику и обходиться без нее.