Microsoft запустила Copilot Health для медзаписей

Недавно Microsoft представила Copilot Health — специальный раздел в приложении Copilot, куда пользователи смогут подключать свои медицинские записи и получать ответы на вопросы о самочувствии. За пару дней до этого Amazon объявила, что Health AI — инструмент на базе больших языковых моделей, раньше доступный только участникам сервиса One Medical, — теперь открыт широкой аудитории. Эти новинки встали в один ряд с ChatGPT Health от OpenAI, запущенным в январе, и Claude от Anthropic, который работает с пользовательскими медданными при наличии разрешения. Массовые ИИ-решения для здоровья превратились в настоящий тренд.

Спрос на чат-ботов с советами по здоровью понятен: многим сложно получить помощь через обычные медицинские каналы. Исследования подтверждают, что нынешние большие языковые модели способны выдавать безопасные и дельные рекомендации. Тем не менее учёные подчёркивают необходимость тщательной проверки такими инструментами со стороны независимых специалистов — и лучше всего до их массового распространения.

В сфере здоровья, где ставки высоки, разумно не полагаться исключительно на тесты от самих разработчиков, особенно если эти данные не выносят на суд внешних экспертов. Даже когда компании проводят солидные исследования — а OpenAI как раз из таких, — у них могут быть слепые зоны, которые поможет выявить более широкое научное сообщество.

«Здравоохранение всегда востребовано в избытке, так что нужно использовать все проверенные подходы», — считает Эндрю Бин, аспирант Oxford Internet Institute. «Мне кажется вполне реальным, что эти модели уже достигли уровня для полноценного внедрения».

«Однако без солидной доказательной базы не обойтись», — уточняет он.

Критическая точка

По словам создателей, такие health-продукты выходят на рынок благодаря тому, что большие языковые модели наконец-то умеют давать толковые медицинские советы. Доминик Кинг, вице-президент по здоровью в Microsoft AI и бывший хирург, объясняет создание своей команды и запуск Copilot Health прогрессом ИИ. «Генеративный ИИ сильно продвинулся в умении отвечать на вопросы о здоровье и выдавать качественные отклики», — заявляет он.

Но по мнению Кинга, это лишь часть объяснения. Вторая — огромный интерес пользователей. Незадолго до дебюта Copilot Health Microsoft опубликовала отчёт и сопутствующий пост в блоге о том, как народ использует Copilot для медицинских консультаций. Ежедневно сервис фиксирует 50 миллионов вопросов о здоровье, а эта тема лидирует в мобильном приложении Copilot.

Другие ИИ-компании тоже отреагировали на этот всплеск. «Ещё до появления наших health-инструментов запросы о здоровье в ChatGPT росли с невероятной скоростью», — рассказывает Каран Сингал, руководитель Health AI в OpenAI. (Microsoft и OpenAI давно сотрудничают, а Copilot работает на моделях OpenAI.)

Возможно, дело в том, что бот доступен круглосуточно и не осуждает. Но многие специалисты связывают это с реалиями здравоохранения. «Эти инструменты заняли свою нишу не просто так», — отмечает Гириш Надкарни, главный ИИ-офицер Mount Sinai Health System. «Получить медицинскую помощь непросто, а для отдельных групп — и вовсе тяжело».

Идеал потребительских чат-ботов на базе LLM — улучшать самочувствие людей и разгружать систему здравоохранения. Например, помогать решать, нужна ли срочная помощь, — это называется триажем. Если бот справляется, то пациенты с острыми проблемами обратятся к врачам быстрее, а с лёгкими симптомами смогут справиться дома по рекомендациям бота, не нагружая приёмные и неотложки.

Но недавнее исследование Надкарни и коллег из Mount Sinai показало обратное для ChatGPT Health: бот иногда советует излишние визиты к врачу при банальных жалобах и пропускает настоящие чрезвычайки. Хотя Сингал и другие эксперты критикуют методологию, работа подняла тревогу: перед релизом такие инструменты почти не проходят внешние проверки.

Большинство опрошенных академиков признают потенциальную пользу LLM-чат-ботов для здоровья, особенно там, где доступ к врачам ограничен. Но все шестеро выразили беспокойство: релизы происходят без тестов от независимых исследователей на предмет безопасности. Некоторые функции, вроде планов тренировок или подсказок для разговора с доктором, относительно безвредны. Другие — как триаж, постановка диагноза или схемы лечения — несут явные риски.

В интерфейсе ChatGPT Health есть заметное предупреждение: инструмент не для диагностики или терапии. Аналогичные оговорки есть в анонсах Copilot Health и Health AI от Amazon. Однако их легко пропустить. «Все понимают: народ будет использовать это для диагнозов и лечения», — говорит Адам Родман, врач-терапевт и исследователь из Beth Israel Deaconess Medical Center, а также гость Google.

Медицинские тесты

Разработчики уверяют: они проверяют боты, чтобы те выдавали безопасные ответы в подавляющем большинстве случаев. OpenAI создала и открыла HealthBench — бенчмарк, оценивающий отклики LLM в реалистичных меддиалогах (хотя сами диалоги генерирует LLM). При релизе GPT-5, на которой стоят и ChatGPT Health, и Copilot Health, OpenAI сообщила результаты: модель обошла предшественников, но до идеала далеко.

Такие оценки имеют пределы. В статье прошлого месяца Бин и соавторы показали: пусть LLM сама по вымышленному сценарию верно определяет болезнь, но неспециалист с её помощью в реальности угадывает лишь в трети случаев. Без медзнаний пользователь может упустить ключевые детали в запросе или неправильно понять ответ модели.

Бин считает этот разрыв существенным для моделей OpenAI. В исходном HealthBench компания отметила слабость своих ИИ в диалогах, где нужно запрашивать допданные у юзера. Если так, то новички без знаний рискуют получить бесполезный или неверный совет.

Сингал из OpenAI подчёркивает: текущая серия GPT-5 (её не тестировали в первом HealthBench) гораздо лучше просит уточнения, чем старые версии. Правда, OpenAI сообщила, что GPT-5.4, нынешний флагман, хуже ищет контекст, чем GPT-5.2.

Идеал по Бину — контролируемые тесты с реальными людьми перед релизом, как в его работе. Это сложно: ИИ эволюционирует быстро, а исследования с людьми тянутся месяцами. Его тест шёл на GPT-4o — модели почти годичной давности, уже устаревшей.

Недавно Google провела подходящее исследование: пациенты общались с AMIE (Articulate Medical Intelligence Explorer), медчат-ботом на LLM, ещё не публичным, перед встречей с врачом. Диагнозы AMIE не уступали человеческим, серьёзных проблем с безопасностью не нашли.

Хоть результаты вдохновляют, Google не спешит с AMIE. «Исследования продвинулись, но для перехода к реальности нужно доработать равенство, справедливость и безопасность», — написал в письме Алан Картикешалингам из Google DeepMind. Недавно компания рассказала о Health100 — платформе с CVS на базе флагманских Gemini, но без фокуса на диагнозы или лечение.

Родман, соавтор исследования AMIE, сомневается, что многолетние клинические испытания подходят для чат-ботов вроде ChatGPT Health или Copilot Health. «Клиническая парадигма не всегда годится для генеративного ИИ. Здесь важны бенчмарки от доверенных третьих сторон, к которым лаборатории согласятся приобщаться».

Ключ — «третья сторона». Как бы компании ни старались, их выводы полностью не внушают доверия. Независимые оценки добавляют беспристрастности, а множество проверяющих минимизирует слепые зоны.

Сингал из OpenAI за внешние тесты. «Мы помогаем сообществу. HealthBench — пример качественной оценки для других разработчиков».

Учитывая дороговизну, он сомневается, что один вуз создаст «идеальный» тест. Но хвалит инициативы вроде MedHELM от Stanford — набора заданий по медтемам. Сейчас GPT-5 лидирует в MedHELM.

Нигам Шах, профессор медицины в Stanford и лидер MedHELM, признаёт его минусы: оценивает только одиночные ответы, а не многоходовые беседы. Он с коллегами готовит тест для сложных диалогов, но это потребует времени и средств. «Мы не остановим компании от релизов health-продуктов, они сделают по-своему. Нам остаётся искать финансирование для бенчмарков».

Никто из опрошенных не требует от health LLM идеальных показателей на внешних тестах для выхода в свет. Врачи тоже ошибаются, и для тех, кто редко видит доктора, доступный круглосуточно ИИ с редкими промахами — уже прогресс, если ошибки не фатальны.

При нынешнем уровне доказательств невозможно сказать наверняка: улучшают ли доступные инструменты ситуацию или их минусы перевешивают плюсы.

ИИ-инструментов для здоровья становится всё больше — насколько они эффективны?

Критическая точка

Медицинские тесты

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде