Исследование показывает, что ChatGPT Health занижает данные о состоянии и задерживает диагностику почти в половине случаев неотложной медицинской помощи

Недавнее исследование, опубликованное в журнале Nature Medicine, показало, что ChatGPT Health, чат-бот, запущенный OpenAI для медицинских сценариев, часто недооценивает серьезность неотложных медицинских ситуаций при классификации (сортировке) случаев. Исследовательская группа загрузила в систему 60 реальных медицинских случаев и сравнила рекомендации по сортировке с заключениями трех врачей, основанными на рекомендациях и опыте.

Результаты показали, что среди случаев, в которых врачи определили необходимость немедленного обращения в отделение неотложной помощи, в ChatGPT Health 51,6% определили, что «могут обратиться к врачу в течение 24–48 часов», что является так называемой «низкой степенью». Ситуации, классифицируемые как неотложные, включают диабетический кетоацидоз, надвигающуюся дыхательную недостаточность и другие серьезные заболевания, которые приведут к смерти, если не оказать своевременную помощь. Ашвин Рамасвами, ведущий автор исследования и преподаватель урологии в больнице Маунт-Синай в Нью-Йорке, отметил, что любой врач с некоторой подготовкой предположил бы, что таких пациентов необходимо немедленно доставить в отделение неотложной помощи, но чат-бот, похоже, «ждал, пока состояние станет несомненно серьезным», прежде чем рекомендовать поездку. Однако в этом исследовании ChatGPT Health достигла 100% точной классификации таких чрезвычайных ситуаций, как инсульт, которые имеют очень типичные симптомы.

В исследовании также рассматривалось, как система работала при различных демографических характеристиках: каждый случай был разбит на 16 вариантов, меняя пол пациента, расу и другую информацию, но по замыслу выводы должны быть одинаковыми независимо от варианта. Исследование не обнаружило никаких доказательств систематической систематической ошибки в результатах по признаку пола или расы.

Исследование также показало, что у ChatGPT Health была противоположная проблема с несрочными случаями: он «переоценивал» 64,8% несрочных случаев по сравнению с врачами, например, просил пациента, у которого болело горло только в течение трех дней, быть осмотренным в течение 24–48 часов на дому. Рамасвами сказал, что он изо всех сил пытался увидеть логику рекомендаций модели в различных сценариях, заявив, что ее суждения о риске были «в некотором роде обратными, почти противоположными» клиническим рискам.

Результаты ChatGPT Health были столь же нестабильными в ситуациях, связанных с суицидальными мыслями или риском членовредительства. Политика OpenAI гласит, что, когда пользователь выражает суицидальные мысли, чат-бот должен направить его на номер 988, Национальную горячую линию по вопросам самоубийств и кризисов, и ChatGPT Health использует тот же механизм. Но в этом исследовании система иногда предлагала позвонить по номеру 988, когда в этом не было необходимости, но не давала совета, когда это действительно было необходимо.

В ответ на выводы исследования представитель OpenAI заявил, что компания приветствует исследования по применению искусственного интеллекта в медицинской сфере, но считает, что дизайн этого исследования не отражает типичные или ожидаемые сценарии использования ChatGPT Health. По данным OpenAI, модель взаимодействия ChatGPT Health побуждает пользователей продолжать задавать вопросы, чтобы предоставить больше справочной информации, а не полагаться на нее, чтобы вынести единовременное суждение по одному описанию. В настоящее время ChatGPT Health по-прежнему открыт только для ограниченных пользователей. OpenAI продолжает улучшать безопасность и надежность модели и еще не продвигает ее в полной мере. В официальной информации также подчеркивается, что продукт «не предназначен для диагностики или лечения», а построен на более безопасной платформе, позволяющей пользователям загружать более конфиденциальную личную медицинскую информацию.

Отчет, опубликованный OpenAI в январе этого года, показал, что более 40 миллионов человек по всему миру использовали ChatGPT для ответа на вопросы, связанные со здоровьем. Каждую неделю происходит около 2 миллионов разговоров, связанных с медицинским страхованием. Подавляющее большинство медицинских консультаций происходит в нерабочие часы врачей, и более 500 000 сообщений каждую неделю приходят из районов, находящихся более чем в 30 минутах езды от больницы. Исследователи отмечают, что инструменты искусственного интеллекта очень привлекательны для этих людей, поскольку их недорого приобрести, нет ограничений на количество вопросов и ответов, а пользователи могут загружать все документы и детали, которые они хотят обсудить. По мнению Рамасвами, многие люди ищут не просто совет, но и интерактивный опыт «медицинского компаньона».

Однако несколько экспертов, не участвовавших в исследовании, предупредили, что медицинские возможности нынешних чат-ботов не следует переоценивать. Джон Мафи, терапевт из системы здравоохранения Калифорнийского университета в Лос-Анджелесе, сказал, что любой медицинский продукт искусственного интеллекта, влияющий на безопасность жизни, должен пройти строгие рандомизированные контролируемые испытания, чтобы доказать, что польза перевешивает риски, прежде чем его продвигать в больших масштабах. Эксперты в целом полагают, что чат-боты могут предоставить полезную информацию о здоровье во многих ситуациях, но их по-прежнему трудно заменить личным суждением врачей.

Моника Агравал, доцент кафедры биостатистики и информатики Университета Дьюка, отметила, что внешнему миру до сих пор не хватает прозрачного понимания данных обучения и методов обучения крупномасштабных языковых моделей, а многие существующие показатели оценки (например, высокие баллы на лицензионных экзаменах) не отражают напрямую их истинные медицинские способности. Она также упомянула, что большие языковые модели «потворствуют» и имеют тенденцию повторять мнения пользователя, даже если эти мнения неточны, что может усилить существующие недопонимания и предубеждения пациентов. Мафи добавил, что инструменты искусственного интеллекта «призваны доставлять вам удовольствие», но врачам иногда приходится говорить то, что пациенты не хотят слышать.

На вопрос о том, безопасно ли полагаться на чат-ботов для предоставления медицинских консультаций, Рамасвами считает, что, по крайней мере на данном этапе, ответ отрицательный, особенно в чрезвычайных ситуациях, на ИИ не следует полагаться, но следует сначала обращаться к врачам или службам экстренной помощи. Итан Го, исполнительный директор ARISE, исследовательской сети ИИ в Сингапуре, считает, что во многих конкретных ситуациях ИИ действительно может давать безопасные и осуществимые рекомендации, но главное, чтобы пользователи знали о его ограничениях и не рассматривали его как замену врачам. Эксперты подчеркивают, что более безопасным будущим направлением является использование ИИ совместно с врачами при постоянном регулировании и совершенствовании инструментов за счет более тесного сотрудничества между медицинскими учреждениями и технологическими компаниями.

Рамасвами сказал, что, если возможности модели продолжат улучшаться, установление трехсторонних отношений сотрудничества «пациент-ИИ-врач» в отдаленных районах или в сценариях глобального здравоохранения с ограниченными медицинскими ресурсами может принести ощутимую пользу пациентам. Но до этого вопрос о том, как провести достаточно строгую оценку и ограничения этих систем, прежде чем принимать решения, которые действительно повлияют на жизнь, по-прежнему остается сложной проблемой, стоящей перед медицинской и технологической промышленностью.