Могут ли чат-боты ИИ рассуждать как медики?
Среди первых задач для компьютеров в медицине всегда выделялось помощь в клиническом мышлении — тех шагах, что ведут к постановке диагноза и выбору плана лечения. За годы учёные создали немало систем поддержки клинических решений, обычно заточенных под конкретные нужды с детально прописанными правилами по симптомам, порогам тестов и взаимодействиям лекарств. С ростом сил искусственного интеллекта клиническое мышление стало логичным направлением для применения.
Большие языковые модели ИИ от OpenAI показали результат лучше, чем у врачей, в ряде задач по клиническому мышлению на реальных записях из приёмного покоя, согласно исследованию, вышедшему 30 апреля в журнале Science. Эти выводы появились на фоне противоречивых данных о медицинской информации от чат-ботов: некоторые работы демонстрируют сильную диагностику, другие фиксируют выдуманные ссылки, ошибочные советы и итоги, зависящие от методов оценки. Несмотря на неопределённость, продукты для медиков уже выходят на рынок. К примеру, в этом году OpenAI запустила ChatGPT for Clinicians и ChatGPT for Healthcare. Результаты модели OpenAI o1-preview, которую потом заменили более свежие версии, оказались достаточно убедительными, чтобы авторы посоветовали проверять такие модели ИИ на живых кейсах, где врачи запрашивают второе мнение по диагнозу на ключевых этапах. Микел Тордjман, изучающий ИИ в медицинской визуализации в Icahn School of Medicine в Нью-Йорке, считает, что сейчас подходящий момент для исследований с фокусом на реальные сценарии. «Нужны дополнительные подтверждения в проспективных клинических испытаниях», — подчёркивает он, добавляя, что свежие модели ИИ или специально обученные под медицину могут сработать ещё эффективнее.
Хотя авторы статьи в Science на брифинге для прессы выразили надежду на медицинский потенциал ИИ, они акцентировали ключевые ограничения моделей и риски неверного толкования их работы. «Наши результаты не значат, что ИИ заменит врачей», — заявляет соавтор Арджун Манрай из Harvard Medical School, занимающийся ИИ. «Это правда круто, не подумайте иначе», — добавляет соавтор Адам Родман, педагог в Beth Israel Deaconess Medical Center в Бостоне. «Но меня беспокоит, как могут использовать такие данные».
Насколько чат-боты надёжны в медицинских делах?
Другие специалисты, проверяющие медицинские советы чат-ботов, недавно нашли поводы усомниться в их верности. В одном исследовании почти половина ответов пяти популярных чат-ботов на открытые вопросы о здоровье оказалась ошибочной. Боты придумывали факты и цитаты, выдавая их уверенно независимо от правдивости.
«Такие модели применяют ежедневно. Есть неотслеживаемый и неустраняемый риск», — отмечает Арья Рао, исследующая ИИ в медицинской практике в другой группе Harvard, не связанной с авторами Science.
Большинство работ смотрит на ответы чат-ботов на вопросы обычных людей — те, что возникают перед визитом к доктору. Использование языковой модели ИИ как инструмента поддержки для врачей — совсем иная история. Медики лучше знают, какие данные помогут модели поставить верный диагноз или набросать план лечения, плюс обладают базой, чтобы ловить явные промахи. Однако вычислить галлюцинации модели всё равно непросто для докторов. «Модели одинаково убедительны, правы они или нет», — говорит Родман. «Нужны рабочие процессы с минимальным уровнем ошибок».
Исследователи сопоставили двух врачей и две большие языковые модели на диагностических задачах на разных этапах ухода в приёмном покое.
Даже работы, ориентированные на задачи клинического мышления для врачей, приходят к разным выводам в зависимости от критериев успеха. В статье от 13 апреля в JAMA Network Рао и коллеги проверили 21 языковую модель ИИ на похожих заданиях. Как и в Science, многие преуспели в финальных диагнозах, включая серию o1. Однако Рао низко оценила модели по вопросам дифференциальной диагностики из-за иной системы подсчёта.
При дифференциальной диагностике врачи перечисляют все вероятные причины симптомов пациента. Модель ИИ может верно назвать шесть из семи возможных итоговых диагнозов. Это можно посчитать как 86 процентов успеха или, как в подходе Рао, как неприемлемую неудачу.
Стандартизированной системы оценки пока нет. «Это всё ещё в разработке», — говорит Тордjман. «Идеального метода проверки языковых моделей ИИ в клиническом мышлении не существует».
Проверки медицинского ИИ на практике
В исследовании Science учёные протестировали модель OpenAI на наборах сложных медицинских кейсов, похожих на открытые вопросы экзаменов. Инструкции для чат-бота бывали объёмными, с деталями, которые могли оказаться лишними или решающими подсказками.
«Мы дополнительно доказали, что такая производительность работает в реальности», — подчёркивает Родман. Один блок исследования опирался на данные 76 настоящих визитов в приёмный покой. Модель ИИ и врачи ставили диагнозы на нескольких этапах: при поступлении, после осмотра доктором и после перевода в другой отдел больницы. Хотя точность и у машин, и у людей росла с притоком данных, модель ИИ стабильно опережала людей. Например, на финальном этапе она выдала «точный или очень близкий диагноз» в 82 процентах случаев против 79 и 70 процентов у двух врачей.
Языковые модели ИИ, какими мы их знаем, существуют меньше десяти лет, и поле меняется стремительно. Обновления флагманских моделей выходят быстрее, чем типичные медицинские исследования и публикации, а вопросы регуляции и ответственности висят в воздухе. Поскольку пациенты и доктора уже обращаются к таким системам, исследователи рассказали IEEE Spectrum о срочной необходимости разобраться в их плюсах, минусах и оптимальном применении.
Сравнение ИИ с врачами важно, но Манрай считает ключевым вопросом реальное взаимодействие медиков с технологией. «Нужно срочно уходить от «ИИ против людей» к тому, как люди работают с этой техникой», — говорит Манрай.
Несмотря на открытые вопросы, Рао из Harvard подчёркивает: технологии двигаются слишком быстро, чтобы медицина их игнорировала. «Важно осторожничать, оценивать, но ещё важнее внедрять новшества ответственно», — заключает она.