【论文信息】
论文一:Towards conversational diagnostic artificial intelligence
发表期刊:Nature, Vol. 642, pp. 442–450 (2025); published online 9 April 2025
DOI:10.1038/s41586-025-08866-7
论文二:Towards accurate differential diagnosis with large language models
发表期刊:Nature, Vol. 642, pp. 451–457 (2025); published online 9 April 2025
DOI:10.1038/s41586-025-08869-4
一直以来,诊断类 AI 的一个常见误区,是把“诊断”误写成“分类”或“问答”。在这种设定下,模型只需在给定完整信息后输出一个标签或答案;而真实世界中的诊断并不是这样发生的。无论是医生面对复杂病例,还是运维工程师面对异常设备,真正困难的都不是“知道标准答案”,而是在证据不完整、症状相互干扰、风险成本很高的条件下,逐步形成假设、主动补充信息、排除干扰项,并最终给出经得起追溯的判断。
2025年,Nature同期收录了两篇围绕AMIE(Articulate Medical Intelligence Explorer)的论文:Tu等人关注“AI能否像医生一样完成多轮问诊与病史采集”,McDuff等人则关注“AI能否像专家一样生成高质量鉴别诊断,并作为协作工具提升医生表现”。两篇论文属于同一 AMIE 研究序列,但分别从过程端与结果端回答了诊断推理系统最关键的两个问题:它能否像专业人员一样收集证据,以及它能否在复杂条件下给出更可靠的判断。
对于主要研究工业故障诊断、设备维护、健康管理与智能运维的读者而言,这两篇论文最有价值的地方并不在于医疗场景本身,而在于它们提供了一套完整的方法论示范:如何把诊断重新定义为迭代推理问题,如何把训练与评估设计得更接近真实工作流,以及如何让AI从“会对话的模型”变成“可进入决策流程的推理协作者”。
01. 研究背景:诊断为什么不是问答
AMIE这两篇论文的共同出发点,就是把这一现实放进研究框架。Tu 等人关注的是“会不会问”,强调多轮问诊、病史采集、沟通与管理建议;McDuff 等人关注的是“会不会辨”,强调在复杂病例上给出高质量的鉴别诊断,并考察 AMIE 作为独立系统和作为医生辅助工具时的不同价值。
02. 方法论:AMIE是怎么训练出来的
AMIE的基础是大语言模型,但它的关键并不只在于底座有多强,而在于其面向诊断对话与诊断推理的专门优化过程。Tu等人提出了一个带自动反馈机制的self-play训练框架,用来扩展模型在多专科、多情境下的问诊能力。
整个训练过程可以理解为“内外双循环”。在内循环里,AMIE扮演医生代理,另一个AI扮演患者代理,双方围绕病例进行模拟对话;同时还加入批评者与自动评估模块,对问诊质量、信息收集效率与对话结果进行反馈。在外循环里,质量更高的模拟对话被筛选出来,用于持续优化后续训练。这样做的意义在于,它突破了真实高质量医疗对话数据稀缺的限制,让模型能够在大量可控场景中学习“如何提问”“何时更新假设”以及“如何避免无效追问”。
更重要的是,AMIE在推理阶段并不是简单“给答案”,而是会在内部形成诊断链式思考:它需要先理解症状、建立候选诊断、决定下一步追问什么,再根据新增信息对候选诊断进行支持或排除。对于工业故障诊断研究而言,这一点尤其关键,因为真正值得借鉴的并不是医学术语本身,而是“先取证、再更新、后决策”的推理范式。

图1 AMIE 的整体框架与研究设计。
图片来源:Tu et al., Figure 1, Nature 642 (2025)
03. 实验设计:这两篇论文为什么值得信
3.1 对话评估:它真的像医生一样会问诊吗?
Tu 等人的实验设计很有代表性,核心在于它没有把“问诊”简化成单轮问答,而是做成了接近真实临床流程的对话式评估。论文采用远程、盲法、随机化设计,让 AMIE与初级保健医生分别和经过验证的患者演员进行同步文本问诊,再由独立专科医生与患者演员从多个维度进行评分。
这类评分并不只看最后诊断对不对,还会看病史采集是否完整、沟通是否清晰、解释是否得体、是否能够提出合理的管理建议,以及对患者感受与信任的影响。结果显示,从专科医生视角看,AMIE在 32个评价维度中有 30个优于初级保健医生;从患者演员视角看,AMIE 在26个维度中有25个更优,其余维度也达到了非劣性水平。

图2 专科医生与患者演员视角下的多维度对话质量评估。
图片来源:Tu et al., Figure 5, Nature 642 (2025)
3.2 鉴别诊断评估:它真的能在复杂病例中帮到医生吗?
McDuff等人的实验聚焦于另一个更具体的问题:面对真实复杂病例,AMIE能否生成更好的鉴别诊断列表,并作为辅助工具提升医生的诊断质量?论文使用了302 个来自已发表病例报告的复杂案例,并把研究拆成两个层面:第一,AMIE单独完成鉴别诊断时表现如何;第二,医生在有AMIE 辅助时表现如何。
这样的设计非常重要,因为它区分了“系统能力”和“协作价值”这两个经常被混在一起的问题。结果表明,AMIE 在独立完成鉴别诊断时的 top-10 accuracy为59.1%,高于未辅助临床医生的33.6%;而在辅助条件下,医生使用AMIE时的top-10 accuracy为51.7%,高于仅使用搜索引擎辅助的44.4%,也高于无AMIE 条件下的 36.1%。这说明AMIE 的价值既体现在模型本身,也体现在它对专业人员推理过程的增益。

图3top-n 鉴别准确率曲线比较。
图片来源:McDuff et al., Figure 2, Nature 642 (2025)
04. 两篇论文合在一起说明了什么
如果把这两篇论文分开看,一篇更像是在回答“模型是否具备对话式取证能力”,另一篇则是在回答“模型能否把取证后的信息组织成高质量的鉴别诊断结果”。但把它们放在一起看,意义会更大:它们共同证明,诊断AI的关键不只是最终结论是否正确,而是系统能否沿着真实工作流,完成从证据收集到假设更新再到结论生成的完整闭环。
这也是两篇论文能够形成互补关系的原因。Tu等人证明了过程端的可信性:系统是否会问、会不会问到点子上、能否在交互中建立患者信任;McDuff等人则证明了结果端与协作端的价值:系统是否能够生成更高质量的鉴别诊断,并在复杂任务中帮助专业人员提升判断质量。对于工业诊断研究而言,这种“过程—结果—协作”三位一体的研究布局,比单独报告一个离线准确率更有方法论意义。
进一步看,这两篇论文之所以有说服力,还在于它们没有把结果停留在单一平均值上,而是展示了辅助前后变化发生在什么类型的病例、什么环节以及什么任务条件下。这样的报告方式提醒我们:高风险诊断系统真正需要解释的,不仅是“平均提高了多少”,更是“在什么地方提高、为什么提高、对谁有帮助”。

图4 AMIE 辅助前后的诊断列表变化。
图片来源:McDuff et al., Figure 3, Nature 642 (2025)
05. 特色创新:这两篇论文真正推进了什么
两篇论文最重要的创新,并不是把“医疗问答”做得更像考试高分,而是把“诊断”重新定义成一个动态推理任务。过去很多工作强调的是模型知道多少医学知识;AMIE强调的则是模型如何在多轮交互中主动获取关键信息,并基于这些信息逐步组织诊断。
第二个创新,是把“过程质量”和“结果质量”分开评估。Tu等人重点证明过程端的能力,McDuff等人重点证明结果端与协作端的价值。两篇论文合在一起,才构成了一个相对完整的诊断 AI 研究闭环。
第三个创新,是评估设计本身。真实患者演员、随机化设计、盲法评审、复杂病例、对话转录文本、后测问卷与专家评分,共同构成了比传统benchmark更接近真实工作的研究范式。这也是它们能够提供更强外部说服力的重要原因。

图5 AMIE 研究中的问诊界面与专家评估界面示例。
图片来源:Tu et al., Extended Data Fig. 1, Nature 642 (2025)
06. 局限与展望
当然,这两篇论文也没有回避目前的局限性。最主要的是实验交互形式以同步文本聊天为主,这虽然便于开展大规模研究,但并不等同于真实临床中的电话、视频或面对面问诊。另一方面,复杂病例报告本身仍带有一定“谜题式”特征,与日常临床初诊时的信息展开方式并不完全相同。对工业场景而言,这同样提醒我们:离线benchmark上的漂亮结果,并不直接等于真实生产环境中的稳定价值。
未来真正值得关注的方向,是把多模态信息、过程约束和真实工作流更紧密地结合起来。对于工业界来说,这意味着模型不仅要理解文本日志,还要理解时序信号、告警记录、工况上下文、维修工单与专家规程;不仅要给出候选故障,还要给出后续检查建议、风险提示与维修优先级排序。只有当这些能力被纳入同一套可评测、可追溯、可协作的系统框架时,诊断推理大模型才真正具备进入工业运维主流程的条件。
07. 深度思考与借鉴价值
AMIE这两篇论文真正值得工业AI研究借鉴的,不是医疗场景本身,而是它用两篇互补的实证研究,系统回答了一个更普遍的问题:当诊断任务足够复杂、证据足够分散、错误代价足够高时,AI系统应当以什么样的形式存在,才能真正进入决策流程并被专业人员信任?这个问题在工业故障诊断、设备健康管理与运维决策中同样成立,而且同样没有被充分回答。

图6 对话长度、信息收集效率与诊断准确率之间的关系。
图片来源:Tu et al., Extended Data Fig. 6, Nature 642 (2025)
1. 故障诊断不应被定义为分类任务,而应被定义为迭代推理过程
AMIE最根本的贡献,是拒绝把诊断简化为“给定信息→输出标签”的静态分类。它把诊断重新定义为“主动收集信息—提出假设—搜索支持或反驳证据—动态更新判断—输出可解释结论”的迭代推理链。
工业故障诊断面临着几乎同构的结构性挑战。实际运维场景中,设备故障往往不是“传感器数据直接对应故障类型”,而是初始报警信号模糊,需要结合历史记录、运行工况和维修日志逐步缩小故障范围;多个可能故障之间高度相似,需要通过追加检测或对比证据排除干扰项;最终结论还必须具有可追溯的推理路径,才能被一线工程师和管理层接受并据此决策。把这个过程定义为“多步证据推理”而不是“特征—标签映射”,是当前工业AI研究最值得推进的方向之一。
如果一个系统能够把“根因定位”拆解成“症状收集→候选故障生成→证据验证→结论输出”的可执行链条,它就不再只是一个预测模型,而是一个能够嵌入真实运维工作流的推理系统。
2. 知识图谱在诊断推理中的真正价值,是约束推理路径,而不只是扩充知识来源
AMIE用到了大量结构化医学知识,但更关键的不是知识库规模,而是知识结构如何约束推理方向。系统不是在漫无边际地搜索,而是沿着有意义的临床路径推进;这种约束使推理结果更可控、可预期、可复核。
对KG+LLM 驱动的工业故障诊断而言,这一点具有直接启发。工业场景真正稀缺的,不是知识本身,而是让大模型沿着“设备结构—故障机理—维修规程”这一合法路径推理的机制。如果知识图谱仅作为检索来源,LLM 容易在宽泛搜索中失焦;如果图谱结构被用来限制候选空间,例如通过层级故障链、可达路径、规程约束或图规则约束解码过程,系统输出就会更稳健,也更容易通过工程师复核。
3. 评估框架的设计:不只评最终答案,还要评推理过程质量
McDuff 等人用302个真实复杂病例、双盲随机化设计、20位临床医生和独立专科评审构建了一套严格的评估框架;Tu 等人则把过程评估拆成病史采集、诊断准确性、管理建议、沟通质量和共情表现等多个维度。这两套评估框架最重要的共同点是:它们都不是只看“最终答案对不对”,而是同时评估“推理过程是否合理”。
这对工业故障诊断研究有直接参照价值。目前绝大多数故障诊断论文的评估指标仍停留在准确率、F1 和混淆矩阵上,这些指标回答的是“模型分类对不对”,却回答不了“推理路径是否符合工程实际”“给出的根因分析能否被维修工程师复核”“系统在噪声数据和边界故障下的推理稳定性如何”。未来更有说服力的工业 AI 评估,至少应包含三个层次:最终诊断准确率、推理路径的合法性,以及工程师对系统输出的可用性评分。只有把这三层评估同时做实,研究结论才真正具备落地说服力。
4. 人机协作的定位:系统是工程师的推理副驾驶,而不是替代者
McDuff 等人的一个重要结果是:AMIE 辅助下的医生,诊断准确率高于单独使用AMIE,也高于单独工作的医生。也就是说,最好的结果不是“AI单独做”,而是“AI 辅助人做”。
这个结论在工业场景里几乎是必然成立的。设备运行上下文、现场的非结构化观察、历史维修中的隐性经验,这些信息是现有数据驱动模型很难完整捕获的,而经验丰富的工程师恰恰擅长整合这些信息。因此,工业故障诊断 AI 的定位应该更接近“推理副驾驶”而不是“自动决策系统”:它能够快速整合多源证据,生成带推理链的候选故障列表,标注关键不确定性,并给出需要工程师进一步核查的具体建议,但最终决策权仍然在人。
5. Self-play、仿真环境与数字孪生:工业诊断推理的潜在方法主线
AMIE 之所以能够跨越“真实高质量诊断对话数据稀缺”的瓶颈,关键就在于 self-play:用 AI 与 AI 大量模拟问诊过程,再借助自动反馈不断筛选高质量样本。这一路径对工业场景同样具有现实意义,因为真实故障案例少、标注成本高、边界案例更稀缺,本来就是工业智能诊断长期面临的共性难题。
如果后续能够结合数字孪生、机理仿真、专家规则与知识图谱环境,构造大规模“模拟故障问诊—证据补充—根因定位—维护决策”的交互数据,那么模型就有机会在可控环境中学习主动取证、结构约束推理与维修建议生成。这类研究既保留了工业系统的工程真实性,又能在方法上与 AMIE 形成明确呼应,因此很适合作为“从医疗诊断范式迁移到工业故障推理”的下一步方向。
结语
对于设备运维工程师而言,故障诊断最难的时刻,往往不是面对一个明确的报警信号,而是面对一堆相互矛盾的症状、不完整的历史记录和高度相似的候选故障,却必须在有限时间内给出一个经得起追溯的判断。这个困境,和医生面对复杂病例时的处境高度相似。
AMIE这两篇论文证明,当大模型被赋予迭代推理、主动证据收集和可溯源输出的能力,并通过严格的真实场景评测验证其价值时,它距离成为一个真正可信赖的诊断协作者,已经更近了一步。这条路的逻辑,在工业故障诊断领域同样成立:不是更大的模型,不是更多的训练数据,而是更清晰的任务定义、更合理的推理约束和更严格的过程评估,才是让工业AI真正进入运维决策流的关键所在。
从这个意义上说,AMIE的意义并不只属于医疗AI。它更像是一个信号:下一阶段真正有说服力的诊断智能系统,必须同时回答“如何推理”“如何协作”和“如何被验证”这三个问题。对于正在布局工业大模型、智能运维、故障推理与PHM的研究者来说,这恰恰是最值得深入探索的方向。
原始论文信息
Tu, T., Schaekermann, M., Palepu, A. et al. Towards conversational diagnostic artificial intelligence. Nature 642(8067): 442–450 (2025). DOI: 10.1038/s41586-025-08866-7.
McDuff, D., Schaekermann, M., Tu, T. et al. Towards accurate differential diagnosis with large language models.Nature 642(8067): 451–457 (2025). DOI: 10.1038/s41586-025-08869-4.