Профессор NYU провел устные экзамены с помощью голосового ИИ-агента. На 36 студентов ушло 15 долларов, а тест выявил слабые места в знаниях учащихся и собственной методике преподавания.
Домашние задания по новому курсу "Управление продуктами AI/ML" получились подозрительно качественными — не на уровне сильного студента, а как меморандум из McKinsey после трех правок, отмечает Панас Ипеиротис. Профессор NYU Stern прославился исследованиями в области краудсорсинга и сочетания человеческого и машинного интеллекта.
Ипеиротис вместе с сокурсом Константиносом Ризакосом стали неожиданно вызывать студентов на разбор во время лекций. Результат получился показательным: многие, кто сдал продуманные работы, не могли толком обосновать даже простые решения из своих же текстов после пары уточняющих вопросов. Разрыв между письменными результатами и устной защитой был слишком предсказуемым, чтобы списать на волнение.
Традиционная схема с домашними работами, которая раньше надежно проверяла понимание, теперь полностью устарела из-за ИИ, подчеркивает Ипеиротис. Учащиеся легко решают типичные экзаменационные задачи с помощью моделей.
ИИ-устные экзамены обошлись в 42 цента на студента
Устные экзамены требуют думать на ходу и защищать реальные решения, но для больших групп они логистически сложны. Опираясь на исследование, где ИИ показал большую последовательность, чем люди, на собеседованиях, Ипеиротис и Ризакос протестировали новинку: финальный зачет через голосового ИИ-агента на базе ElevenLabs Conversational AI.
Экзамен состоял из двух блоков. Сначала агент расспрашивал о финальном проекте студента: цели, данные, выбор модели, оценка и возможные сбои. Потом агент брал один из кейсов курса и задавал вопросы по пройденному материалу.
36 студентов прошли тест за девять дней, в среднем по 25 минут на экзамен. Общие расходы: 15 долларов — 8 на Claude как основного оценщика, 2 на Gemini, 30 центов на OpenAI и около 5 на ElevenLabs. Получается 42 цента на человека.
Для сравнения: 36 студентов по 25 минут с двумя человеческими проверяющими — это 30 часов работы. При ставке ассистента в 25 долларов в час выходит 750 долларов. В университетской среде такая разница часто решает, проводить ли устные экзамены вообще, поясняет Ипеиротис.
Первая версия пугала тоном и сыпала вопросами
Начальный вариант имел недостатки, признает Ипеиротис. Студенты жаловались на жесткий тон агента. Преподаватели клонировали голос коллеги, но учащиеся сочли его напористым и снисходительным. Один написал в письме, что агент на него кричал.
Другие проблемы: агент задавал сразу несколько вопросов, перефразировал вместо точного повтора при просьбах и вмешивался в паузы слишком резко.
С рандомизацией возникли особые трудности. Просьба "случайно" выбрать кейс приводила к тому, что в 88% случаев агент брал Zillow. После удаления этого примера из промта на следующий день в 16 из 21 теста он выбрал "предиктивную полицию".
"Просить LLM выбрать случайно — все равно что человека попросить назвать число от 1 до 10: полно семерок", — объясняет Ипеиротис. Это известный эффект, который идет от предвзятости в обучающих данных.
Оценка от панели из трех ИИ-моделей
Проверку организовали по методу Андрея Карпати "Совета LLM". Claude, Gemini и ChatGPT сначала независимо оценили каждую расшифровку, потом обсудили оценки друг друга и скорректировали свои.
Сначала расхождения были заметными: Gemini ставил в среднем 17 из 20, Claude — 13,4. После этапа обсуждения 60% оценок оказались в пределах одного балла, 29% совпали точно. Gemini снижал свои баллы в среднем на два пункта после критики Claude по конкретным пробелам.
ИИ-отзывы превзошли человеческие, по словам Ипеиротиса: структурированные обзоры сильных и слабых сторон с прямыми цитатами из экзамена.
Анализ по темам выявил и огрехи в курсе. По "Экспериментированию" средний балл — всего 1,94 из 4 против 3,39 по "Постановке проблемы". Трое студентов не смогли ничего сказать по теме, никто не набрал максимум. Ипеиротис признает: A/B-тестирование в курсе не освещали. "Внешний оценщик не дал это пропустить", — говорит он.
Еще один вывод: длина экзамена не влияла на баллы. Самый короткий, девять минут, получил высший результат. Самый длинный, 64 минуты, — средний.
Студенты сочли ИИ-экзамены напряженными, но честными
Опрос студентов дал неоднозначную картину. Всего 13% выбрали формат с ИИ, вдвое больше предпочли живого экзаменатора. 83% отметили больший стресс по сравнению с письменными тестами. Но около 70% подтвердили: экзамен проверил настоящее понимание — это самый высокооцененный пункт.
Устные экзамены были нормой, пока не перестали масштабироваться, подводит итог Ипеиротис. ИИ возвращает их в практику. Плюс к традиционным тестам: студенты могут репетировать, вопросы генерируются заново каждый раз. Утечки заданий больше не угроза.
Ипеиротис выложил промты для голосового агента и оценочной панели, плюс ссылку для самостоятельного теста агента.