【论文信息】
·论文标题:An agentic system for rare disease diagnosis with traceable reasoning
·发表期刊:Nature, Vol 651, pp 775–784 (2026)
·DOI:10.1038/s41586-025-10097-9
·开源代码:DeepRare
·在线系统:deeprare.cn
一直以来,罕见病诊断面临的最大痛点并非单一疾病的“冷门”,而是患者常常受困于漫长且低效的诊断链路中。全球有超过3亿人受到罕见病影响,已知罕见病种类超过7000种,其中约80%为遗传性疾病。对许多患者而言,频繁的误诊与反复转诊构成了令人绝望的“诊断漫游”。
近期发表于Nature的论文DeepRare尝试给出全新的解法:当罕见病诊断变成一个高复杂度、多证据源、强推理依赖的临床任务时,研究团队构建了一套基于大语言模型(LLM)的多智能体系统,让大模型不再仅仅是“会回答”,而是真正嵌入临床工作流中“会诊断”。
01.研究背景
过去几年,大语言模型在医学问答和病历总结中展现出巨大潜力,但在罕见病诊断场景中依然举步维艰。其核心难题不仅在于病种繁多,更在于多重挑战的叠加:
·疾病极度长尾:许多罕见病医生终其一生也难遇几例。
·表型高度异质与重叠:同种疾病在不同患者身上表现各异,而不同罕见病之间又存在明显的表型重叠,极易混淆。
·线索高度碎片化:关键证据往往分散在自由文本病历、HPO(人类表型本体)术语、复杂的基因变异文件以及浩如烟海的既往文献中。
这意味着,罕见病诊断本质上是一个需要多轮检索、持续推理和证据整合的过程。AI如果只是在最后一步强行输出一个疾病名称,其临床价值非常有限。
02.方法方案
DeepRare并未试图训练一个“记住所有罕见病知识的超级模型”,而是将整个诊断过程解耦为多个可协作的模块,由中央系统统一调度。系统整体采用了三层架构:
1.中央主机(CentralHost):由大模型驱动的“诊断中枢”,负责接收输入、调用工具、整合证据、形成假设并做出最终决策。
2.专业智能体(AgentServers):包含表型提取器、基因型分析器、疾病标准化器、病例搜索器、知识搜索器等6大功能单元,将复杂的诊断过程拆解为可追踪的步骤。
3.外部数据源(ExternalDataSource):接入PubMed、Orphanet、OMIM、临床病例库及基因变异数据库等40余种专业工具和数据源。

图1:DeepRare系统工作流程:从多模态输入,到中央主机调度多类专业智能体,再到可溯源的诊断输出。
03.核心机制
DeepRare最具突破性的设计在于加入了两个关键的临床逻辑能力:
·自反思循环(Self-ReflectiveLoop):摒弃了传统AI的“一次性输出”模式。在给出初步候选诊断后,系统会主动搜索证据来支持、削弱或推翻当前假设。若现有假设均被排除,系统会返回信息收集阶段,扩大搜索范围并再次迭代,这高度还原了真实医生“提出假设—寻找证据—修正结论”的临床思维。
·可溯源推理链(TraceableReasoning):系统不仅输出诊断结果,还会为每个候选疾病生成透明的推理链,并将每一步判断精确关联到医学文献、临床指南或相似病例。
·多模态异构输入:支持自由文本病历、结构化HPO表型以及基因组VCF文件,真正实现了表型与基因型的联合建模。

图2:DeepRare推理链的专家验证结果,证据准确率达95.4%,以及失败模式分布分析。
04.核心发现
研究团队在覆盖全球14个医学专科的9个数据集、6401个临床病例上进行了全面评测。
1.显著领先现有工具:在标准化表型(HPO)输入下,DeepRare的平均Recall@1达到57.18%,远超第二名的33.39%。
2.多模态性能跃升:融入基因组数据后,DeepRare的Recall@1跃升至69.1%,优于传统生物信息学工具Exomiser(55.9%)。
3.超越人类专家的辅助能力:在与5位具有10年以上经验的资深罕见病专家盲测对比中,DeepRare的Recall@5达到78.5%(医师平均65.6%),Recall@1为64.4%(医师平均54.6%)。

图3:DeepRare与各类基线方法在平均Recall@1上的对比。

图4:DeepRare在多个公开数据集和院内数据集上的详细结果对比。

图5:与临床专家医师的对比结果,以及加入基因数据前后的性能提升。
05.消融实验与局限性
实验证明,性能的大幅跃升归功于智能体框架本身而非单一底座模型。当GPT-4o接入该框架后,Recall@1从25.60%提升至54.67%;DeepSeek-V3同样获得了近30个百分点的提升。

图6:DeepRare智能体框架对不同大模型的性能增益。
在针对200个失败病例的分析中,最主要的失败模式是推理权重偏差(41%)和表型相似疾病混淆(38.5%)。这反映出AI在权衡不同临床特征权重以及鉴别高度相似的极端长尾疾病时,仍面临瓶颈。而事实错误和证据链接错误仅占5%,印证了系统核心检索与调度机制的稳健性。
06.特色创新
这篇论文的特色创新在于它展示了一种更贴近真实医疗工作流的AI范式构建方式。过去许多医疗AI局限于“医学问答”,而DeepRare试图让AI学会像一个“临床团队”一样工作:接收异构输入、检索外部知识、提出假设并反复验证,最后将高度透明的推理过程呈现给医生。
它不再是一个闭门造车的黑盒模型,而是一个能够嵌入并重塑临床决策流的协作系统。这种转变对于解决医疗场景下的可解释性和责任归属问题具有重大的突破意义。
07.深度思考与借鉴价值
DeepRare最重要的价值,不只是它把罕见病诊断的分数做得更高,而是它提示我们:复杂医学 AI 的研究价值,往往不只取决于底层模型性能,也取决于任务流程设计、证据组织方式、评估框架和临床验证路径是否能够同时成立。换句话说,这篇论文真正值得借鉴的,不是某一个 prompt 或某一个模型接口,而是它展示了什么样的研究问题,更可能发展成下一阶段有影响力的医学 AI 工作。
1. 临床任务流程建模的研究价值
DeepRare 的消融实验已经说明,在罕见病这种高复杂度任务中,性能提升并不主要来自底模替换,而更多来自任务拆解、模块协同和验证回路的系统设计。例如,GPT-4o 接入 DeepRare 后平均 Recall@1 从 25.60% 提升到 54.67%,DeepSeek-V3 从 26.18% 提升到 56.94%。这说明,对于后续研究而言,更值得做的不是继续横向比较 GPT、Claude 或 DeepSeek 谁更强,而是研究:哪些临床 SOP 可以被抽象为 agent protocol,哪些子任务更适合交给检索、规则或模型,流程拆解方式如何影响泛化性与安全性。
2. 过程质量与证据可复核性的评价框架
DeepRare 不只是报告 Recall@1/3/5,还让 10 位医生对 180 个病例的推理链进行审核,得到 95.4% 的证据准确率。这个设计非常关键,因为它说明在医疗场景中,真正有价值的并不只是“答对了”,还包括“证据是否真实、是否相关、是否足以支持结论、医生能否沿着同一证据链完成复核”。从研究角度看,这实际上打开了一条很值得做的方向:建立面向医学 agentic systems 的过程评测体系。这类工作即使不直接追求更高诊断率,也可能因为重新定义了医疗 AI 的评估方式,而成为很有分量的子刊甚至更高层级的方法学贡献。
3. 细粒度鉴别推理的关键研究方向
论文对 200 个失败病例的分析显示,系统当前的主要问题并不是事实性推理错误,而是推理权重偏差(41.0%)和表型相似疾病混淆(38.5%)。这意味着 DeepRare 已经在一定程度上解决了“找知识”的问题,但还没有完全解决“如何在多个都很像的疾病之间做精细鉴别”的问题。对后续研究来说,这给出了非常明确的方向:表型权重学习、对比式 differential reasoning、负证据和缺失证据建模、时间顺序信息的引入,都可能成为下一阶段更有创新密度的研究主题。相比继续堆叠外部工具,这类工作更直接命中当前瓶颈,也更容易形成机制层面的贡献。
4. 真实世界临床验证的重要性
DeepRare 已经在跨数据集、跨中心测试中表现出很强的性能,但论文同时也明确展示了一个现实问题:院内数据由于隐私限制,只能采用本地模型完成评估。这说明医疗 AI 真正落地时,首先面临的往往不是模型能力,而是数据合规、部署方式和责任链条。也正因此,后续真正有机会冲击更高层级期刊的工作,未必只是做一个更强的离线系统,而是进一步回答更临床的问题:系统是否缩短了诊断时间,是否减少了无效检查,是否提高了基层医生对罕见病的识别率,是否真正改变了最终临床决策。如果这些问题能在多中心、前瞻性研究中被证明,那么研究的意义就会从“一个更强的 AI 工具”上升为“一个能够改变临床流程的系统性工作”。
总的来说,DeepRare 对后续研究最重要的借鉴,不是告诉我们下一步该换哪个更强的模型,而是提醒我们:后续医学 AI 研究可以重点关注四条主线:临床任务流程建模、过程质量评价、细粒度鉴别推理,以及真实世界临床验证。
结语:
对于长期陷在“诊断漫游”中的患者而言,AI的意义不是替代医生,而是最大限度地缩短黑暗中的摸索时间。DeepRare证明了,当大模型具备可协作、可溯源、可反思的能力并真正嵌入工作流时,我们距离解决医学界最顽固的罕见病堡垒,又近了坚实的一步。