Гарвардское исследование экстренной сортировки доказывает, что диагностика с помощью искусственного интеллекта лучше, чем у настоящих врачей

В медицинских драмах, от Джорджа Клуни в «Скорой помощи» до Ноа Уайла в «Скорой помощи», врачи скорой помощи уже давно изображаются героями, спасающими жизни. Но последнее исследование Гарварда показывает, что в экстренных ситуациях системы искусственного интеллекта превосходят врачей-людей в диагностической точности. Этот результат исследователи описывают как технологический поворотный момент, который «изменит медицину».

Независимые эксперты полагают, что исследование, опубликованное в журнале Science и проведенное командой Гарвардской медицинской школы, знаменует собой «настоящий прогресс» в возможностях ИИ в области клинического рассуждения, помимо простой сдачи экзаменов или решения искусственно созданных тестовых вопросов. В исследовании использовался крупномасштабный экспериментальный план для сравнения сотен врачей с большой языковой моделью (LLM), при этом основное внимание уделялось оценке различий в эффективности в ключевых сценариях, таких как неотложная сортировка и долгосрочное планирование лечения.

В одном из основных экспериментов исследовательская группа отобрала 76 реальных пациентов, посетивших отделение неотложной помощи больницы в Бостоне. Системе искусственного интеллекта и команде из двух врачей-людей были предоставлены одни и те же стандартные электронные медицинские записи, включая данные о жизненно важных показателях, демографическую информацию и описание медсестрой причины визита в нескольких предложениях. Учитывая эту ограниченную информацию для постановки первоначального диагноза, ИИ поставил точный или очень точный диагноз в 67% случаев, в то время как человеческие врачи были правы только в 50–55% случаев.

Исследования показывают, что преимущества ИИ особенно заметны в сценариях сортировки, когда информация крайне ограничена и требуется быстрое принятие решений. Когда ИИ и врачам была предоставлена более подробная клиническая информация, диагностическая точность ИИ (с использованием модели вывода o1 OpenAI) еще больше улучшилась до 82%, в то время как точность экспертов-людей колебалась в пределах 70–79%, хотя эта разница не была статистически значимой.

Помимо экстренной сортировки, ИИ также продемонстрировал врачам превосходную эффективность при разработке долгосрочных планов лечения. В другом исследовании исследовательская группа попросила ИИ рассмотреть пять клинических случаев с участием 46 врачей, с задачами, варьирующимися от разработки схем приема антибиотиков до планирования долгосрочных планов лечения, таких как процессы ухода в конце жизни. Результаты показали, что варианты лечения, предложенные ИИ, получили значительно более высокие баллы — 89%, в то время как врачи, которые полагались на традиционные источники, такие как поисковые системы, набрали только 34%.

Несмотря на это, исследователи подчеркнули, что еще далеко не время «объявлять об увольнении врачей скорой помощи». В этом исследовании диагностические возможности искусственного интеллекта и людей сравнивались только на уровне данных медицинских записей, которые могут быть текстифицированы, и не включали многие сигналы, которые имеют решающее значение в реальных клинических ситуациях, таких как выражение боли пациентов, эмоциональные состояния, язык тела и даже нетекстовая информация, такая как взаимодействие с членами семьи. Другими словами, в этом исследовании ИИ был ближе к «закулисному врачу», который давал второе мнение на основе бумажной информации.

«Я не думаю, что наши результаты означают, что ИИ заменит врачей», — сказал Арджун Манрай, один из первых авторов исследования и директор лаборатории ИИ в Гарвардской медицинской школе. «Я думаю, это означает, что мы являемся свидетелями глубоких технологических изменений, которые изменят всю систему здравоохранения». Коллега ведущего автора Адам Родман, врач Медицинского центра Бет Исраэль Диаконесса в Бостоне, назвал большие языковые модели «одной из самых влиятельных технологий последних десятилетий». Он предсказал, что в ближайшие десять лет ИИ не заменит врачей, а сформирует новую «модель трехсторонней помощи» с врачами и пациентами — «врачи, пациенты и системы искусственного интеллекта».

В исследовании также представлен репрезентативный клинический случай: пациент обратился в больницу с тромбами в легких и ухудшением симптомов. Врачи-люди первоначально пришли к выводу, что лечение антикоагулянтами не помогло, что привело к прогрессированию заболевания; но после прочтения истории болезни ИИ заметил ключевой момент: пациент страдал красной волчанкой, аутоиммунным заболеванием, которое также может вызывать воспаление легких. При дальнейшей проверке вывод ИИ оказался верным.

Клиническое применение ИИ не остается на лабораторной стадии. Большое количество врачей уже используют его на практике. Согласно недавнему исследованию, опубликованному Американской медицинской ассоциацией, почти каждый пятый врач в США внедрил инструменты с использованием искусственного интеллекта в свои диагностические процедуры. В Великобритании новый опрос Королевского колледжа врачей показал, что 16% врачей используют такую технологию ежедневно, а еще 15% используют ее один или несколько раз в неделю, при этом «поддержка принятия клинических решений» является одним из наиболее распространенных сценариев использования.

Тем не менее, британские врачи во время опроса также выразили высокую бдительность в отношении ИИ, особенно опасаясь риска неправильного диагноза ИИ и вопросов ответственности. Хотя миллиарды долларов вложены в стартапы в области медицинского ИИ по всему миру, если ИИ пойдет не так, как определить ответственность и кто будет нести ответственность за последствия, по-прежнему остается неотложным институциональным пробелом, который необходимо устранить. «В настоящее время не существует формальной системы подотчетности», — отметил Родман, подчеркнув, что пациенты «в конечном итоге хотят, чтобы их направляли, сопровождали и объясняли люди», когда они сталкиваются с решениями о жизни и смерти или сложными планами лечения.

Профессор Юэн Харрисон, содиректор Центра медицинской информатики Эдинбургского университета, заявил, что исследование имеет важное значение, поскольку оно показало, что «эти системы больше не предназначены только для прохождения медицинских осмотров или ответов на искусственно созданные тестовые вопросы». По его мнению, ИИ постепенно становится полезным «инструментом второго мнения» для врачей, особенно в тех случаях, когда необходимо всесторонне разобраться в потенциальных диагнозах и не упустить важные причины заболеваний.

В то же время Вэй Син, доцент Школы математики и физических наук Университета Шеффилда в Великобритании, также напомнил, что некоторые результаты исследования показывают, что, когда врачи сотрудничают с ИИ, они могут неосознанно полагаться на выводы ИИ и ослаблять независимое мышление. «Эта тенденция, вероятно, будет усиливаться и дальше, поскольку ИИ станет регулярно использоваться в клинических условиях», — отметил он. Син Вэй также подчеркнул, что исследование не полностью раскрыло, у каких типов пациентов ИИ работает хуже, например, сложнее ли диагностировать пожилых пациентов или пациентов, для которых английский язык не является родным. Это вопросы, которые нельзя игнорировать при оценке безопасности.

Таким образом, хотя результаты Гарвардского исследования обнадеживают, они не доказывают, что ИИ достаточно безопасен для регулярного и независимого использования в клинической диагностике и лечении, а также не означают, что общественность должна обратиться к бесплатным инструментам ИИ в качестве замены профессиональных медицинских консультаций. В обозримом будущем ИИ, скорее всего, будет использоваться в качестве высокопроизводительного «умного стетоскопа» и «второго мозга», который будет встроен в управляемую человеком медицинскую систему, способствуя более точной и эффективной диагностике и лечению, а также ставя перед обществом новые вопросы ответственности, этики и доверия.