Медицинский диагноз: когда искусственный интеллект начинает рассуждать как врач

Каждый врач знает , что постановка диагноза — это вопрос рассуждения. Столкнувшись с пациентом, необходимо осмотреть его, выслушать, задать вопросы и интерпретировать результаты, чтобы рассмотреть несколько возможных причин, объясняющих патологию, прежде чем остановиться на одной из них. Этот процесс приводит к так называемой дифференциальной диагностике: составлению списка заболеваний, которые, вероятно, объясняют наблюдаемые клинические симптомы , а затем их ранжированию по степени последовательности и вероятности. Это упражнение в размышлениях опирается на знания, память, опыт, а иногда и на интуицию. Именно эти способности исследователи и инженеры-компьютерщики сейчас пытаются привить системам искусственного интеллекта (ИИ).
Недавние разработки экспертных систем и диагностических алгоритмов постепенно меняют традиционный подход врачей, которые сталкиваются с экспоненциальным ростом объёма данных и потребностью в быстрых и точных решениях. Эта проблема особенно актуальна в области дифференциальной диагностики, где тонкость клинического мышления, способность связывать разрозненные данные и контекстуализация каждого фрагмента данных в рамках уникальной истории болезни пациента остаются ключевыми для врача.
Несколько недавних исследований были посвящены изучению вопроса: в какой степени машина способна рассуждать подобно врачу? Может ли она анализировать и интерпретировать данные в клинической карте, а затем поставить последовательный дифференциальный диагноз в письменной форме?
Чтобы ответить на этот вопрос, исследователи из Калифорнийского университета в Сан-Франциско и Гарвардской медицинской школы (Бостон) сочли полезным поставить людей и ИИ в равные условия, представив им один и тот же сложный клинический случай. Результаты их исследования были опубликованы 9 октября 2025 года в американском медицинском еженедельнике The New England Journal of Medicine (NEJM). Они проливают свет на то, как люди и машины рассуждают, ставя диагноз.
Этот человек — доктор Гурприт Дхаливал, профессор медицины в Университете Сан-Франциско, известный своим мастерством в клиническом мышлении — настоящий доктор Хаус. Машина, получившая название «Доктор Кабот», была обучена на тысячах реальных клинических случаев. Её название отдаёт дань уважения доктору Ричарду К. Каботу, основателю знаменитого отдела истории болезни Массачусетской больницы общего профиля, который регулярно публикуется в журнале «New England Journal of Medicine» с 1923 года.
Противостояние врача и ИИ по одному делуВпервые врачу-эксперту и искусственному интеллекту был представлен один и тот же клинический случай, при этом каждый из них развивал собственные рассуждения, не зная о рассуждениях другого, чтобы объективно оценить свои возможности. Авторы отмечают, что это был первый случай, когда анализ был поручен доктору Каботу. Сгенерированный искусственным интеллектом текст был опубликован в NEJM «как есть», без каких-либо правок и переписывания, включая библиографические ссылки, подобранные машиной.
В рассматриваемом случае речь идет о 36-летнем мужчине, страдающем алкогольной зависимостью, госпитализированном с жалобами на боли в животе и пояснице, постоянную лихорадку, диарею, рвоту, гипоксемию (снижение уровня кислорода в крови) и тромбоцитопению (низкий уровень тромбоцитов).
Клиническое обследование выявило гипотонию, желтуху и отклонения при аускультации лёгких. Лабораторные исследования выявили выраженное воспаление и инфекцию, вызванную Streptococcus anginosus .
При визуализации выявляются множественные затемнения в легких, увеличенная печень, утолщение двенадцатиперстной кишки (начальной части тонкой кишки), частичная обструкция (тромбоз) правой почечной вены, простирающейся до нижней полой вены, и, по-видимому, аномальное сообщение между двенадцатиперстной кишкой и правой почкой.
Рассуждения врачаКак и любой эксперт, доктор Даливал объединяет все клинические, биологические и рентгенологические признаки для построения причинно-следственной модели. Он расставляет приоритеты в своих гипотезах, стремясь связать инфекционные, сосудистые, печеночные и легочные нарушения, в конечном итоге выявляя единую причину, способную объяснить всю клиническую картину.
Столкнувшись с этим 36-летним пациентом, страдающим генерализованной инфекцией и множественными заболеваниями, доктор Гурприт Даливал быстро понял, что ни одна убедительная диагностическая гипотеза не сможет объяснить все отклонения без минимизации одного или нескольких основных проявлений. Он счёл такой подход нелогичным и необоснованным. Поэтому он решил использовать стратегию, более соответствующую сложности клинической картины: реконструкцию причинно-следственной цепочки, связного анамнеза, в котором каждое заболевание логически вытекает из предыдущего.
Всё началось с инфекции, вызванной Streptococcus anginosus . Эта бактерия обычно обитает в ротоглотке , в задней части рта. Возможно, она попала в кровоток через повреждение пищеварительного тракта. Гипотеза о перфорации кишечника быстро подтвердилась: анализы выявили утолщение двенадцатиперстной кишки, признак местного воспаления. Эта аномалия сопровождалась двумя осложнениями: абсцессом между двенадцатиперстной кишкой и верхним полюсом правой почки и образованием инфицированного сгустка в правой почечной вене, который затем распространился на нижнюю полую вену – крупную центральную вену, несущую кровь из нижней части тела обратно к сердцу.
Врач рассмотрел другие возможные причины: мезентериальную ишемию (нарушение кишечного кровотока), болезнь Крона, опухоль двенадцатиперстной кишки, паразитарную инфекцию… но ни одна из них не соответствовала общей картине. Затем появилась патология лёгких: подозрительные затемнения в лёгких. Это могло быть недостающим звеном. Исключив редкие причины — септические эмболии (миграцию инфицированных сгустков крови), эндокардит (инфекцию сердца), стронгилоидоз (паразитарную инфекцию, вызванную гельминтом), — он остановился на наиболее вероятном объяснении: аспирационная пневмония, развившаяся в результате удушья во время эпизода острой интоксикации. Рвота могла произойти, когда пациент находился в изменённом состоянии сознания, вызванном алкоголем.
Вместо того чтобы рассматривать два состояния — пищеварительное и лёгкое — как независимые друг от друга, доктор Дхаливал придерживается общей гипотезы: у этого молодого человека алкоголь является общим фактором, связывающим воспаление кишечника с аспирационной пневмонией. По его словам, это ключ к диагнозу. «Чтобы установить причинно-следственную цепочку, необходимо выяснить не только, что произошло, но и почему. Как употребление алкоголя может привести к аспирации?» — пишет врач в своём заключении, подчёркивая негативное влияние алкоголя на бдительность и защитные рефлексы, такие как кашель и рвотный рефлекс.
Он спрашивает: «Введение этого промежуточного звена в цепочку причин открывает путь к рассуждению по аналогии: если острая алкогольная интоксикация может направлять пищу в лёгкие, не может ли она также ошибочно направить непищевые предметы в пищеварительный тракт?» Он продолжает: «Среди предметов, которые часто случайно проглатываются, — монеты, батарейки, булавки, иголки или украшения; но эти металлические предметы обычно видны на рентгеновских снимках. Аналогично, мелкие рыбьи или птичьи кости могут проткнуть кишечник, но они часто видны на снимках из-за кальцификации. С другой стороны, инородное тело растительного происхождения может остаться незамеченным».
Эта интуиция подводит врача к подозрению в отношении обычного предмета, лежащего на столе, кажущегося безобидным, но опасного при проглатывании: зубочистки. «Наиболее вероятным подозреваемым является деревянная зубочистка, распространённый предмет, используемый в бутербродах или для гигиены полости рта. Проглатывание зубочистки часто остаётся незамеченным, но как только оно обнаружено, это становится поводом для неотложной медицинской помощи, поскольку риск перфорации внутренних органов и повреждения сосудов очень высок».
В данном конкретном случае боль в животе и спине, возникшая за две недели до госпитализации, вероятно, соответствует моменту прохождения зубочистки через двенадцатиперстную кишку, прежде чем она попала в забрюшинное пространство и почку. Это создало очаг инфекции Streptococcus anginosus и позволило бактериям проникнуть в кровоток. Сопутствующее алкогольное опьянение (злоупотребление алкоголем) могло способствовать аспирации, приведшей к аспирационной пневмонии. Врач логично заключил: «Я бы рекомендовал провести эндоскопию для визуализации и удаления зубочистки».
рассуждения ИИСо своей стороны, ИИ-система Dr. CaBot, используя те же данные, за считанные секунды разрабатывает диагноз, мобилизуя гигантскую базу медицинских знаний: миллионы статей из медицинской литературы и более шести тысяч клинических случаев. Создание подробного дифференциального диагноза со ссылками и видеообзором занимает около пяти минут.
Искусственный интеллект быстро выявляет наличие инфекции S. anginosus , распространение возбудителя через кровоток, а также выдвигает гипотезу о ране или перфорации двенадцатиперстной кишки, осложнённой забрюшинным абсцессом, что может быть причиной септического тромбофлебита и инфекционной тромбоэмболии лёгочной артерии. Другими словами, окончательный диагноз врача и машины практически полностью совпадают.
Через три дня контрольная компьютерная томография выявила линейное инородное тело размером 5,2 см, перфорировавшее двенадцатиперстную кишку и проникшее в верхний полюс правой почки. Эндоскопия позволила удалить неповрежденную деревянную зубочистку, случайно проглоченную двумя неделями ранее. После процедуры пациент быстро поправился благодаря антибиотикотерапии и антикоагулянтной терапии. Впоследствии он проходил лечение от алкогольной зависимости.
Когда зубочистка побеждает ИИГлавный интерес данного исследования заключается не только в разрешении клинического случая, но и во взаимодействии двух форм интеллекта: человеческого и искусственного. Авторы намеренно опубликовали в медицинском журнале исходные, некорректированные рассуждения, чтобы читатели могли сами оценить сильные и слабые стороны рассуждений ИИ.
«Единственной целью этой статьи было предоставить читателям возможность ознакомиться с потенциальным использованием ИИ в медицине и принятии клинических решений. Читателю предстоит судить, имеет ли ИИ законное место в этой области», — заключают Гурприт Дхаливал, Арджун Манрай, Томас Бакли, Элизабет Хохманн и их коллеги.
Это сравнение человека и машины подчёркивает контраст: врач преуспевает в контекстном анализе и формулировании новых гипотез, в то время как искусственный интеллект поражает своей скоростью обработки большого объёма информации и составления списка правдоподобных диагнозов. Однако, несмотря на свою аналитическую мощь, ИИ не смог найти объяснение, связывающее все факты, поскольку не выдвинул гипотезу о наличии инородного тела.
Человеческая интуицияХотя ИИ может логически собирать данные, человеческая интуиция играет решающую роль: только врач предложил зубочистку, установив связь, которую не смог бы установить ни один алгоритм. Машина рассуждает посредством корреляций, в то время как человек рассуждает посредством аналогии, опыта и воображения. Только врач может разобраться в клинической истории. Именно его способность рассуждать с точки зрения причинно-следственных связей, опираясь как на интуицию, так и на логику, позволяет ему рассматривать теорию инородного тела и связывать симптомы.
Этот показательный случай, демонстрирующий как сближение, так и различие между вероятностным мышлением машины и критической интуицией врача, иллюстрирует прежде всего вхождение искусственного интеллекта в сферу медицинского мышления.
Сравнение эффективности человека и искусственного интеллекта на большом массиве клинических случаевИсследование, опубликованное на сервере препринтов arXiv 15 сентября 2025 года, развивает эту мысль. В нём оценивается способность ИИ конкурировать с медицинским опытом человека, анализируя тысячи реальных случаев из столетней клинической практики.
Она опиралась на истории болезни Массачусетской больницы общего профиля, публикуемые уже более века в журнале «New England Journal of Medicine» и представляющие собой настоящее образовательное сокровище. Эти клинико-патологические конференции (КПК) представляют собой подлинные случаи, проанализированные экспертами, которые объясняют свои рассуждения и диагностические подходы. Для многих поколений врачей они служили образцами для оттачивания навыков медицинского мышления. Будучи студентом, я регулярно читал эти КПК, и спустя десятилетия они вдохновили меня на создание этого блога, посвящённого редким, сложным или нетипичным клиническим случаям.
Столетие клинических случаев как учебная площадкаИспользуя этот уникальный ресурс, исследователи из Гарвардской медицинской школы и медицинского центра Beth Israel Deaconess (Бостон) собрали более 7100 клинических случаев, опубликованных в период с 1923 по 2025 год, а также около 1000 медицинских изображений, опубликованных в период с 2006 по 2025 год в NEJM . На основе этого корпуса был создан CPC-Bench (Clinicopathologic Case Benchmark) – новый бенчмарк, предназначенный для оценки способности моделей искусственного интеллекта рассуждать подобно врачам.
Томас Бакли, Арджун Манрай и их коллеги тщательно прокомментировали последние CPC, определив для каждого случая ключевые этапы диагностического обоснования и гипотезы, сформулированные экспертами.
На основе этого материала они выделили десять типов когнитивных задач, охватывающих основные аспекты медицинского мышления: постановка дифференциального диагноза, планирование дополнительных тестов, обоснование гипотез, поиск литературы, интерпретация радиологических или клинических изображений, работа с неполной информацией (нормальные данные не передаются в модель).
Параллельно исследователи разработали Dr. CaBot, генеративный ИИ, основанный на модели OpenAI o3, способный взять на себя роль врача в беседе. На основе одного лишь описания клинического случая этот искусственный интеллект может провести полный диагностический анализ, как в письменном виде, так и в виде озвученного видео, в стиле, характерном для записей о случаях заболевания (Case Records) NEJM .
Для видеороликов дикторский текст генерировался с помощью модели синтеза речи, а слайды и звуковая дорожка монтировались автоматически. Чтобы сделать презентацию более человечной, исследователи попросили ИИ объяснить ход своих рассуждений, даже включив естественные паузы («э-э», «гм»), как это делают врачи во время реальных конференций.
Оценка, которая выходит за рамки простого угадывания «правильного диагноза»Оригинальность и ценность данного исследования заключаются в его стремлении выйти за рамки простой проверки окончательного диагноза, долгое время считавшегося единственным критерием эффективности медицинского искусственного интеллекта. До сих пор большинство оценок ограничивалось проверкой правильности диагноза, поставленного машиной на основе списка предложенных вариантов, игнорируя богатство аргументации, используемой экспертами-людьми в рамках поддержки клинических решений (CDS). Однако роль врача, участвующего в обсуждении, заключается не только в поиске правильного ответа: он должен аргументировать, обосновывать и интерпретировать его, опираясь на данные патофизиологии, визуализации, научную литературу и клинический опыт.
Именно эту сложность теперь позволяет оценить CPC-Bench. Этот бенчмарк, валидированный врачами, измеряет не только способность моделей проводить дифференциальную диагностику, но и их способность к поиску библиографических ссылок, анализу медицинских текстов и визуальной интерпретации изображений (рентгеновских снимков, сканов, клинических фотографий) для обоснования диагностических заключений. Другими словами, ИИ теперь оценивается не только по конечному результату, но и по его аргументативной связности и владению различными источниками информации, подобно тому, как врач оценивает полную историю болезни пациента.
Впечатляющие выступленияИсследователи оценили эффективность нескольких моделей искусственного интеллекта на примере 377 клинических случаев. Использовались два критерия: способность модели предлагать правильный диагноз первой (точность топ-1) и наличие этого диагноза среди десяти лучших (точность топ-10) . Помимо доктора Кэбота, в оценке также участвовали Gemini 2.5 Pro (разработка Google) и Claude 4.0 Sonnet (создана Anthropic) – две современные системы генерации текста и продвинутого анализа.
Dr. CaBot оказался наиболее эффективным, поставив правильный диагноз на первое место в 60% случаев и войдя в десятку лучших в 84% случаев. Для сравнения, Gemini 2.5 Pro достиг 78%, а Claude 4.0 Sonnet — 69% точности в топ-10 .
Эти результаты значительно превосходят результаты предыдущего исследования, проведённого на основе 302 клинических случаев, где двадцать врачей-интернистов с неограниченным доступом к библиографическим данным достигли точности 24% для первого диагноза и 45% для первых десяти вариантов. Другими словами, доктор КаБот явно превосходит средний показатель врачей-интернистов, по крайней мере, в чисто текстовом аспекте обоснования.
Оценка не ограничивалась диагностикой. Исследователи также проверили способность моделей рекомендовать наиболее релевантные дополнительные обследования. В этом отношении Dr CaBot выделялся 98% успешностью по сравнению с 92% у Gemini 2.5 Pro и 94% у Claude 4.0 Sonnet. Таким образом, ИИ не только определяет вероятную патологию, но и может предложить следующий этап медицинского обследования на основе имеющихся данных.
Слабые стороны: библиография и интерпретация изображенийОднако это превосходство не является всеобщим. Модели ИИ остаются уязвимыми при поиске литературы, часто с трудом находя точный источник клинического утверждения.
Ограничения также очевидны при интерпретации медицинских изображений, что подтверждается известными тестами Image Challenge в NEJM (более 1000 изображений). В этом тесте Gemini 2.5 Pro лидирует с 84% правильных ответов, опережая Dr. CaBot (82%) и GPT-4o (75%).
Если вопрос основан исключительно на изображении, без сопроводительного текста, эффективность значительно падает: 67% успеха для Dr. CaBot и Gemini 2.5 Pro. Специализация играет роль: дерматология показывает гораздо лучшие результаты (76%), чем рентгенология (55%).
Используя изображения, непосредственно извлеченные из клинических случаев CPC, лучшие модели достигают среднего показателя успешности 72%, при этом их эффективность выше в гистологии (точность Dr. CaBot 77%), чем в кардиологии (51%). При использовании изображений без текста Dr. CaBot ставит правильный диагноз на первое место лишь в 19% случаев и в первой десятке — в 40%.
Необходим дальнейший прогресс для того, чтобы искусственный интеллект полностью интегрировал все аспекты клинического мышления, особенно учитывая, что при исключении некоторых нормальных данных из истории болезни пациента, таких как «лимфаденопатии нет» (отсутствие увеличения объёма лимфатических узлов) или «сканирование не выявило особых отклонений», производительность ИИ снижается на 4–5%. Эта, казалось бы, тривиальная информация, тем не менее, крайне важна для диагностического процесса: отсутствие этих отклонений определяет мышление так же, как и наличие клинических признаков и симптомов.
Сильные клинические знанияИсследователи также оценили модели по 1851 вопросу с несколькими вариантами ответов (MCQ), основанному на исходных данных о пациенте. Этот этап позволяет оценить клинические знания моделей.
Dr. CaBot ответил правильно в 88% случаев, Gemini 2.5 Pro — в 84%, Claude 4.0 Sonnet — также в 84%. Для сравнения, самая старая модель, GPT-3.5, набрала лишь 66%.
Эти результаты иллюстрируют, как новейшие модели ИИ теперь способны эффективно обрабатывать простые клинические вопросы на основе первоначального представления случаев.
В 62 слепых тестах пять врачей сравнивали отчёты, составленные доктором КаБотом, с отчётами, опубликованными экспертами-людьми в базе данных NEJM Case Records . Эти врачи не смогли определить источник текста почти в 74% случаев. Они даже признали некоторые отчёты, созданные ИИ, более качественными по нескольким критериям: общее качество, обоснованность диагноза, релевантность библиографических ссылок и образовательная ценность.
Что касается текста, то здесь можно привести рассуждения, сопоставимые с рассуждениями врачей.В целом, хотя Dr. CaBot пока не обладает интегративным видением клинициста, он с поразительной точностью имитирует, как врач рассуждает, пишет и преподаёт. «Обширные языковые модели теперь соперничают с экспертами-людьми в клиническом мышлении, основанном на тексте клинико-патологических лекций, создавая презентации, которые часто трудно отличить от написанных специалистами», — заключают авторы.
По мнению авторов, ключ к достигнутому на сегодняшний день прогрессу кроется не столько в способе формулирования запросов, адресуемых машине (так называемое оперативное проектирование) , и даже не в обучении работе со специализированными медицинскими базами данных, сколько в впечатляющем увеличении размера и мощности самих моделей.
Ресурс, открытый для научного сообществаБостонские исследователи не остановились на достигнутом. Они запустили сайт cpcbench.com, позволяющий любому исследователю протестировать собственную модель ИИ на этом историческом корпусе и сравнить результаты. Более того, онлайн-версия Dr. CaBot уже предлагает видео- и текстовые клинические лекции, охватывающие около пятнадцати случаев, опубликованных в период с 2000 по 2025 год, и позволяет пользователям проводить новые анализы на основе реальных случаев.
Подводя итог, доктор Кабот демонстрирует, что ИИ теперь может конкурировать с врачами в задачах текстового анализа, сохраняя при этом возможности для совершенствования в обработке изображений и интеграции неявной информации. Он не заменяет медицинское мышление, но воспроизводит его логическую структуру с впечатляющей точностью. Спустя столетие после создания истории болезни , машина учится, на этих самых страницах, рассуждать так же, как те, кто их написал.
ИИ теперь входит в сферу медицинского мышленияЭти два совсем недавних исследования, одно из которых опубликовано в New England Journal of Medicine , а другое — на сайте препринтов arXiv , оказываются весьма взаимодополняющими, поскольку они изучают одну и ту же революцию: вступление клинического мышления в эру искусственного интеллекта.
Первый случай, связанный с пациентом, проглотившим зубочистку, представляет собой беспрецедентное противостояние человека и машины вокруг диагностической головоломки. Он подчёркивает их сильные и слабые стороны: способность врача синтезировать информацию и клиническую интуицию, с одной стороны; и скорость анализа и полноту ИИ, с другой.
Второе исследование, опубликованное на arXiv , рассматривает вопрос более широко. Оно выходит за рамки простой задачи поиска правильного окончательного диагноза. Оценка ИИ исключительно по этому критерию не позволяет оценить работу эксперта-человека, который должен составить обоснованный дифференциальный диагноз и представить его своим коллегам-специалистам.
Разрабатывая Dr CaBot, исследователи демонстрируют, что искусственный интеллект теперь может генерировать последовательные медицинские рассуждения как при написании дифференциального диагноза, так и в устной или видеопрезентации клинико-патологической конференции, подобно экспертам New England Journal of Medicine .
Таким образом, ИИ совершенствуется не только в своей способности ставить диагнозы, но и в планировании исследований, ведении аргументации и написании работ, как это делают настоящие специалисты.
В конечном счёте, эти два исследования, рассматриваемые с разных точек зрения, рассказывают одну и ту же историю: об историческом переходе, в ходе которого искусственный интеллект постепенно становится союзником в медицинском мышлении. Таким образом, становится ясно, что будущее дифференциальной диагностики будет определяться не противопоставлением человека и ИИ, а их сотрудничеством на благо пациента и обогащением медицинских знаний.
Продолжение следует... (вторая часть будет опубликована на следующей неделе)
Чтобы узнать больше:
Дхаливал Г., Худ К.М., Манрай А.К. и др. Случай 28-2025: 36-летний мужчина с болью в животе, лихорадкой и гипоксемией . N Engl J Med. 9 октября 2025 г.;393(14):1421-1434. doi: 10.1056/NEJMcpc2412539
Бакли Т.А., Риккардо Кончи Р., Бродер П.Г. и др. Развитие искусственного интеллекта в медицине на примере столетия . [Отправлено 15 сентября 2025 г.]
ЧИТАЙТЕ ТАКЖЕ: Зубочистка чуть не стоила жизни молодому человеку
Le Monde



