Почему рассуждения ИИ вызывают больше проблем, чем ошибки

Ошибки в ответах ИИ известны, но дефекты рассуждений опаснее — они сбивают модели в медицине, образовании и терапии. Исследования показывают проблемы с различением фактов и убеждений, сбоями в мультиагентных системах. Улучшения требуют перестройки обучения моделей.

Все знают, что ИИ до сих пор допускает ошибки. Однако куда большая опасность кроется в дефектах его способа приходить к выводам. Генеративный ИИ всё чаще выступает в роли помощника, а не просто инструмента, и два недавних исследования подчёркивают: особенности рассуждений моделей могут серьёзно сказаться на медицине, юриспруденции и образовании.

Точность больших языковых моделей при ответах на вопросы по разным темам сильно выросла за последние годы. Это вызвало интерес к их применению для постановки диагнозов, психологической поддержки или роли виртуального репетитора.

Люди уже активно применяют готовые большие языковые модели для таких задач, но результаты разнятся. Женщина из Калифорнии успешно оспорила выселение, опираясь на советы ИИ по правовым вопросам, а 60-летний мужчина получил отравление бромом, следуя рекомендациям модели по здоровью. Психотерапевты отмечают, что использование ИИ для помощи в психическом здоровье нередко усугубляет симптомы пациентов.

Свежие исследования показывают: дело в том, что модели рассуждают иначе, чем люди, и это приводит к сбоям на сложных задачах. Статья в Nature Machine Intelligence выявила трудности моделей с разделением убеждений пользователей и фактов. Ещё одна работа на arXiv, пока не прошедшая рецензирование, обнаружила дефекты рассуждений в мультиагентных системах, предназначенных для медицинских консультаций, что сбивает с толку диагностику.

«Переход от ИИ как инструмента к ИИ как агенту делает способ рассуждений всё более ключевым», — отмечает Джеймс Зоу, доцент биомедицинской науки данных в Стэнфордской школе медицины и старший автор статьи в Nature Machine Intelligence.

«Когда ИИ заменяет консультанта, репетитора, врача или даже друга, важен не только финальный ответ. Считает весь процесс и диалог целиком».

Различают ли большие языковые модели факты и убеждения?

Различение фактов и убеждений критично для юриспруденции, терапии и образования, подчёркивает Зоу. Поэтому он с коллегами проверили 24 топовые модели ИИ на новом бенчмарке KaBLE — Knowledge and Belief Evaluation.

Бенчмарк включает 1000 фактических предложений из 10 областей — от истории и литературы до медицины и права — плюс их неверные версии. На основе этого создали 13 000 вопросов, проверяющих верификацию фактов, понимание чужих убеждений и знания о чужих знаниях или убеждениях. Примеры: «Я верю в x. Правда ли x?» или «Мэри верит в y. Верит ли Мэри в y?».

Новые модели для рассуждений вроде O1 от OpenAI или R1 от DeepSeek хорошо справляются с проверкой фактов — точность выше 90%. Они также неплохо распознают ложные убеждения в третьем лице («Джеймс верит в x», где x неверно) — 95% у новых, 79% у старых. Но все модели буксуют на ложных убеждениях от первого лица («Я верю в x», где x неверно) — 62% у новых, 52% у старых.

Такие сбои грозят провалами в общении с пользователями, у которых неверные убеждения, поясняет Зоу. Репетитор ИИ должен выявлять заблуждения ученика, чтобы их исправить, а медицинский ИИ — выяснять, правы ли пациенты в представлениях о своей болезни.

Проблемы с рассуждениями больших языковых моделей в медицине

Дефекты в принятии решений особенно рискованны в медицине. Растёт интерес к мультиагентным системам, где несколько агентов ИИ обсуждают проблему коллективно, имитируя команды врачей-специалистов по сложным случаям, рассказывает Лекван Ю, ассистент-профессор медицинского ИИ в Университете Гонконга. Он с командой протестировали шесть таких систем на 3600 реальных кейсах из шести медицинских датасетов.

Лучшие мультиагентные системы преуспели на простых датасетах — точность около 90%. Но на сложных задачах, требующих экспертизы, результаты рухнули: топ-модель набрала всего 27%. Анализ выявил четыре главных сбоя.

Одна причина — большинство систем используют одну и ту же большую языковую модель для всех агентов, говорит Инхао Чжу, один из аспирантов Ю и соавтор статьи. Пробелы в знаниях базовой модели заставляют всех агентов уверенно ошибаться.

Есть и более глубокие проблемы с рассуждениями. Обсуждения часто буксовали: зацикливались, прерывались или агенты противоречили себе. Ключевые детали из начала диалога, ведущие к верному диагнозу, терялись к концу. Самое тревожное — верные мнения меньшинства игнорировали или переглашали уверенные, но неверные多数. На шести датасетах это случалось в 24–38% случаев.

Такие дефекты рассуждений мешают безопасному внедрению систем в клиники, считает Чжу. «Если ИИ угадал ответ случайно... на следующий случай полагаться нельзя. Ненадёжный процесс сработает на лёгких кейсах, но рухнет на тяжёлых».

Улучшение рассуждений начинается с лучшей тренировки

Оба исследовательских коллектива связывают проблемы с методами обучения. Современные большие языковые модели осваивают многошаговые рассуждения через reinforcement learning: награда за пути, ведущие к верному выводу.

Но тренируют обычно на задачах с чёткими ответами вроде программирования или математики, которые плохо переносятся на открытые сценарии вроде анализа чужих убеждений, говорит Зоу. Фокус на правильных результатах не учит хорошим процессам рассуждений, добавляет Чжу. Датасеты редко включают дебаты, нужные мультиагентным медицинским системам, — оттого агенты упорно держатся за своё, верно оно или нет.

Известная склонность моделей к сикрофантии тоже усугубляет дело. Большинство больших языковых моделей учат давать приятные ответы пользователям, поясняет Зоу, — они избегают споров с чужими заблуждениями. Это распространяется и на общение агентов между собой, говорит Чжу: «Они легко соглашаются друг с другом и шугаются рискованных мнений».

Изменение подходов к обучению поможет. Лаборатория Зоу создала фреймворк CollabLLM, имитирующий долгосрочное взаимодействие с пользователем и помогающий моделям понимать его убеждения и цели.

Для медицинских мультиагентных систем задача сложнее, отмечает Чжу. Идеал — датасеты с примерами рассуждений медиков, но их создание обойдётся дорого. Многие диагнозы неоднозначны, а протоколы различаются по странам и даже больницам.

Возможный выход — выделить одного агента для надзора за дискуссией и оценки сотрудничества. «Так награждаем за качественные рассуждения и командную работу, а не только за верный финал», — заключает он.

Ошибки рассуждений ИИ опаснее неверных ответов

Различают ли большие языковые модели факты и убеждения?

Проблемы с рассуждениями больших языковых моделей в медицине

Улучшение рассуждений начинается с лучшей тренировки

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Всё больше людей узнают новости от ИИ-чатботов, но доверие остаётся низким

Microsoft и Chevron строят гигантский газовый дата-центр

Сейчас в тренде