Digital Health Insider: DiaLLMs：融合电子健康记录（EHR）的临床对话系统，用于临床检验推荐与诊断预测

近期，大型语言模型（LLM）的进步极大地推动了医疗咨询领域的发展。然而，现有的医疗大型语言模型往往忽略了电子健康记录（EHR）的关键作用，并且主要聚焦于诊断推荐，这限制了它们在临床上的实际应用价值。

为此，我们提出了 DiaLLM，这是首个将异构电子健康记录（EHR）数据整合到具有临床依据的对话中的医疗大型语言模型。它能够实现临床检验推荐、结果解读和诊断预测，从而更好地与真实世界的医疗实践相结合。为了从EHR中构建具有临床依据的对话，我们设计了一种临床检验参考（CTR）策略，该策略能将每个临床代码映射到其对应的描述，并将检验结果分类为“正常”或“异常”。

此外，DiaLLM 还采用了一个强化学习框架来进行证据获取和自动诊断。为了处理巨大的动作空间，我们引入了一种拒绝采样策略以减少冗余并提高探索效率。我们还设计了“确认奖励”和“类别敏感的诊断奖励”机制，用以指导模型进行准确的诊断预测。大量的实验结果表明，DiaLLM 在临床检验推荐和诊断预测方面的性能均优于基线模型。

1. 研究目标、实际问题与科学假设

研究目标与实际问题

论文的研究目标是开发一个名为

DiaLLM的新型医疗大语言模型（LLM），使其能够将真实的电子健康记录（EHR）数据融入到临床对话中，从而实现临床检验推荐、结果解读和诊断预测三大核心功能，以更好地贴近真实世界的医疗实践。

它旨在解决当前医疗AI领域的几个关键痛点：

对EHR数据的忽视：现有的大多数医疗LLM（如ChatDoctor、DoctorGLM等）主要依赖于从医疗网站、问答对或知识图谱生成的合成对话数据进行训练。它们普遍忽视了临床实践的核心——
电子健康记录（EHR），这使得它们难以在真实的医疗环境中使用。EHR数据是异构的，包含了数值、编码和文本，LLM直接理解起来非常困难。
诊断流程的过度简化：很多模型将诊断简化为“症状到诊断”的单一步骤，忽略了现实中医生需要通过**“证据获取（开具检验）->结果解读->确认诊断”**的迭代循环来进行决策。

问题的新颖性与科学假设

这个研究并非要解决一个全新的问题（AI辅助诊断），但其解决问题的路径是全新的。它不再是让AI扮演一个全知的“神医”，而是让它学习成为一个遵循临床逻辑的“医生助理”。

本文要验证的核心科学假设是：

通过设计一个专门的转换策略（将结构化的EHR数据转化为LLM能理解的对话）和一套优化的决策框架（基于强化学习），可以让LLM有效地学习和模拟真实医生的诊疗流程，从而在临床检验推荐和诊断预测的准确性上，显著超越那些未针对真实EHR数据和临床流程进行优化的通用或医疗专用LLM。

2. 新思路、方法与模型分析

论文提出的核心创新是 DiaLLM 系统。其解决方案的关键，可以拆解为两大核心模块：“EHR数据对话化” 和 “强化学习决策优化”。

DiaLLM 的工作流程分为两个阶段：(I) 对话数据构建，将EHR数据转化为临床上合理的对话数据；(II) 奖励建模，优化临床检验选择和诊断预测。

模块一：EHR数据对话化 (EHR Grounded Transformation)

这是DiaLLM能够理解和使用EHR数据的基石。由于EHR中的信息（如

LOINC 8462-4, 93 mm[HG]）对标准LLM来说如同天书，研究者设计了一个名为**临床检验参考（Clinical Test Reference, CTR）**的策略，手动构建了一个“翻译词典”和“解读规则库” 。

临床编码翻译 (Clinical Code Translation)：这个部分负责将专业的医学编码翻译成自然语言。例如，将诊断编码
ICD-10 R10.12 翻译成“左上腹痛” ，将检验编码
LOINC 29463-7 翻译成“体重” 。
临床检验解读 (Clinical Test Interpretation)：这个部分更为关键，它根据患者的年龄和性别，结合医学指南，将检验的数值结果解读为“正常”或“异常” 。例如，对于27岁女性，
LOINC 2160-0 (肌酐) 的值为 0.48 mg/dL，系统会根据CTR中的参考范围，将其翻译为“这些检验结果显示正常：血清或血浆中的肌酐” 。

通过CTR，原本冰冷、结构化的EHR数据被转换成了一段段富有临床上下文、LLM能够轻松理解的多轮对话文本。

模块二：强化学习决策优化 (Reinforcement Learning Framework)

在将EHR转化为对话后，DiaLLM使用**强化学习（RL）**来模拟医生的决策过程。您可以将这个过程想象成一个AI在玩“诊断游戏”，它的目标是在花费最少“成本”（即开具最少的检验）的情况下，做出最准确的诊断。

这个模块有几个非常巧妙的设计，以克服传统RL在医疗场景中的困难：

拒绝采样 (Rejection Sampling)：在真实临床中，可供选择的检验项目成千上万，构成了一个巨大的“动作空间”，直接让AI在其中学习会非常低效。DiaLLM引入了拒绝采样策略，即AI在决定要不要做一个检验前，会先评估这个检验的“信息价值”（能否显著降低诊断的不确定性）并且判断是否是重复检验，从而预先过滤掉大量冗余或无用的检验项目，大大提高了学习效率。
定制化的奖励机制：为了让AI学得更好，研究者设计了两个特殊的“奖励”：
1. 确认奖励 (Confirmation Reward)：如果AI选择的检验能有效降低对最终诊断的不确定性，它就会得到奖励。这鼓励AI像一个有经验的医生一样，循序渐进地收集关键证据。
2. 类别敏感的诊断奖励 (Class-sensitive Diagnosis Reward)：在医疗数据中，罕见病或重病的病例数远少于常见病。为了避免模型倾向于只预测常见病，这个奖励机制对正确预测出罕见病给予更高的权重（奖励）。

与之前的方法相比，DiaLLM的优势在于它深度模拟了临床工作流，不仅能给出诊断，还能说明为何要进行某项检验，并解读检验结果，形成了一个完整的诊疗逻辑闭环。

3. 实验设计、数据与结果分析

论文通过在两个不同来源的数据集上进行对比实验，验证了其方法的有效性。

实验设计

对比对象 (Baselines)：实验选择了多个代表性的模型进行对比，包括：
- 通用预训练大模型：如 Mistralv0.3-7B, Llama3.1-8B 。
- 医疗专用大模型：如 BioMistral, Meditron-7B, Chatdoctor 。
评估任务：
- 单轮对话：基于一次性的患者信息直接进行诊断预测。
- 多轮对话：模型可以主动要求进行额外的检验，然后根据检验结果进行多轮推理，最终给出诊断。
评估指标：主要使用 Recall@5 (衡量模型预测的前5个诊断中是否包含正确答案)、F1分数 (综合衡量准确率和召回率) 和 MRR (评估模型将正确答案排在多靠前的位置) 。

实验数据

NHANES 数据集：一个公开的美国国家健康与营养调查数据，用于构建单轮对话任务。它包含8,897名患者和45个异构特征。
TriNetX 数据集：一个来自全球健康研究网络的大规模、匿名的真实世界EHR数据，包含超过3万名患者。研究者用它构建了更复杂的
多轮对话任务，覆盖代谢、呼吸和循环系统三种疾病。

一个重要的细节是，研究者特意选择了

LLM未曾见过的数据集，以保证评估的公平性。

实验结果与假设支持

实验结果清晰且有力地支持了论文的科学假设。

DiaLLM全面胜出：无论是在单轮还是多轮对话任务中，DiaLLM的各项性能指标都持续地、显著地优于所有基线模型 。例如，在TriNetX-Metabolic多轮任务中，DiaLLM的诊断Recall@5为
73.59%，而经过同样方式微调的Llama3.1-8B模型仅为55.92% 。这证明了其独特框架的有效性。
EHR转换策略至关重要：消融实验（Ablation Study，即通过移除系统某个部件来观察其影响）显示，如果去掉EHR转换流程（w/o Both），模型的性能会出现显著下降 。这证实了“翻译”和“解读”EHR数据是让LLM理解临床场景的关键一步。
专业模型不敌“接地气”的模型：一个有趣的发现是，很多医疗专用LLM（如BioMistral, ChatDoctor）的表现甚至不如经过微调的通用LLM 。论文认为这是因为这些医疗LLM大多在脱离真实临床场景的问答数据上训练，缺乏处理真实、复杂EHR数据的能力。

4. 论文贡献、业界影响与商业机会

论文的核心贡献

范式创新：首次成功地将异构EHR数据集成到临床对话LLM中，并将模型的功能从单一的诊断预测扩展到检验推荐和结果解读，使AI系统更贴近真实的临床工作流。
技术突破：提出了创新的CTR策略来解决LLM理解结构化临床数据的难题，并设计了基于
拒绝采样和定制化奖励的强化学习框架，有效解决了临床决策中动作空间大和数据不平衡的挑战。
实践验证：在真实的、大规模的EHR数据集上验证了方法的优越性，为后续研究提供了有力的证据和可供比较的基准。

对业界的影响和应用场景

临床决策支持系统（CDSS）的智能化升级：这项工作展示了下一代CDSS的可能形态——不再是被动的数据展示工具，而是能与医生进行智能对话、主动提出检验建议并解释结果的“AI住院医师”。
提升初级诊疗水平：在基层医疗机构或面对经验不足的医生时，DiaLLM可以作为一个强大的辅助工具，引导他们进行更规范、更全面的诊疗，避免漏开关键检查。
医疗教育与培训：可以作为一种高效的模拟训练工具，让医学生在虚拟环境中练习如何根据患者情况开具检验并进行诊断。

作为工程师的关注点与商业机会

作为工程师，您应该关注：

领域知识的“接地气”工程：CTR的核心是知识工程，即将特定领域的专业知识（医学指南、编码系统）转化为机器可用的格式。这种“接地气”的能力是AI在任何垂直行业落地的关键。
复杂决策的算法优化：拒绝采样是对RL在巨大动作空间下应用的一个巧妙的工程优化。在您自己的领域，思考如何用算法巧思来解决类似的大规模决策问题，是提升系统性能的关键。
从数据到对话的转换：将结构化或半结构化数据（如日志、传感器数据、表格）自动转换为高质量的自然语言对话，是一个极具潜力的技术方向。

潜在的商业机会：

面向B端的智能EHR解决方案：为医院和诊所提供内嵌DiaLLM能力的智能EHR系统或插件，提升诊疗效率和质量。
远程医疗平台的“AI大脑”：将DiaLLM作为技术核心，赋能在线问诊平台，使其能够提供更深入、更专业的检验咨询和初步诊断建议。

5. 未来探索方向与新机遇

论文在“局限性”部分坦诚地指出了未来的研究方向，这些方向也预示着新的技术和投资机会。

值得进一步探索的问题和挑战

CTR数据库的自动化构建：目前CTR数据库是手动标注的，耗时耗力且可能存在不一致性。未来的一个重要方向是研究如何利用AI
自动地从海量医学文献和指南中提取知识，构建和更新CTR，以提高效率和扩展性。
多模态数据的融合：当前系统主要处理EHR中的文本和数值数据。然而，临床诊断还严重依赖影像学检查（如CT、MRI）。如何将
影像数据也融入到这个对话系统中，实现真正的多模态临床推理，是一个巨大的挑战和机遇。

新的技术和投资机会

自动化知识图谱/知识库构建：能够从非结构化文本中自动构建和维护高质量、特定领域知识库的AI技术，在医疗、金融、法律等多个行业都有巨大的商业价值。
多模态融合大模型：能够理解和推理文本、数值、图像、语音等多种数据格式的下一代大模型是AI领域的必然趋势。在医疗领域，率先实现这一点的公司将建立极高的技术壁垒。

6. Critical Thinking：论文的不足与存疑之处

从批判性思维的角度看，这篇论文虽然扎实，但仍有几点值得商榷：

CTR的可扩展性与泛化能力：论文提到CTR标注了735个检验项目。这相对于临床实践中数以千计的检验项目来说，覆盖面仍然有限。当遇到CTR未覆盖的检验时，系统性能如何？将CTR扩展到覆盖所有常见检验需要多大的成本？这是其泛化应用的一个潜在瓶颈。
对话的“真实性”：尽管数据来源于真实的EHR，但对话本身是根据EHR记录构建出来的，它模拟了医患交互，但并非真实的、实时的对话。在真实的交互中，患者的描述可能是模糊的、矛盾的，医生的提问也是动态的。模型在真实对话场景下的表现仍有待验证。
对伦理和可靠性的讨论：论文在结尾的伦理声明中提到了模型存在幻觉、偏见等潜在风险，并指出其在真实世界的可靠性尚未完全建立。这是一个非常重要但文中未能深入解决的问题。如何在保证安全和可靠的前提下将此类系统部署到临床，是一个比技术本身更复杂的挑战。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Digital Health Insider

DiaLLMs：融合电子健康记录（EHR）的临床对话系统，用于临床检验推荐与诊断预测