MedDCR：学习设计用于医疗编码的智能体工作流

论文信息

标题 (Title): MedDCR: Learning to Design Agentic Workflows for Medical Coding

作者 (Authors): Jiyang Zheng, Islam Nassar, Thanh Vu, Xu Zhong, Yang Lin, Tongliang Liu, Long Duong, Yuan-Fang Li

机构 (Affiliations): Oracle Health and AI; Sydney AI Center, The University of Sydney

发表年份 (Year): 2025 (Preprint arXiv:2511.13361v1)

原文链接 (URL): https://arxiv.org/abs/2511.13361

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective): 医疗编码（将临床文本转换为标准化ICD代码）是一个复杂的多步骤推理过程，涉及概念提取、指南约束、查阅代码书及一致性检查。现有的基于大语言模型（LLM）的智能体方法通常依赖于人工设计的刚性工作流，难以适应真实文档的细微差别和多样性。本研究旨在解决如何系统地自动学习和优化有效的医疗编码工作流这一核心问题。

方法 (Methods): 作者提出了 MedDCR，一个将工作流设计视为学习问题的闭环框架。该框架包含三个核心智能体：**Designer（设计者）**负责提出工作流方案，**Coder（编码者）**将方案转化为可执行代码，**Reflector（反思者）评估预测结果并提供反馈。此外，引入了一个记忆归档（Memory Archive）**机制，用于存储、重用和迭代优化先前的设计。

结果 (Results): 在 MDACE 和 ACI-BENCH 两个基准数据集上，MedDCR 发现的工作流显著优于现有的 SOTA 基线（包括预训练模型和专家设计的工作流）。具体而言，在 MDACE 上 F1 分数提升了 6.2%，在 ACI-BENCH 上提升了 7.4%。

结论 (Conclusion): MedDCR 证明了通过迭代式的“设计-编码-反思”循环，可以自动发现比人工设计更优的医疗编码策略，生成的方案具有更好的可解释性和鲁棒性，为构建值得信赖的自动化医疗编码系统提供了新路径。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

领域背景: 医疗编码是医疗保健中的关键环节，支撑着账单、医院运营和流行病学研究。它不仅仅是文本分类，更是一个需要查阅索引、遵循复杂指南（如 ICD 标准）和交叉验证的多步骤过程。

当前挑战: 手工编码劳动密集且易错。现有的自动化方法（如 PLM-ICD）在处理极其庞大的标签空间（ICD 编码）和长文本时表现挣扎。虽然引入 LLM Agent（智能体）模拟人类编码过程是新趋势，但现有的 Agent 框架大多由专家手动设计（固定的工具调用顺序和推理步骤）。

核心问题: 依赖人工专家的直觉来设计 Agent 工作流可能导致次优解，且难以覆盖所有有效的协作模式。如何让系统自动搜索和优化适合医疗编码任务的 Agent 工作流？

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究:

传统方法: 基于深度学习的多标签分类模型（如 CAML, PLM-ICD），缺乏推理过程的可解释性。

Agentic 方法: 使用 LLM 进行多步推理（CoT, ReAct），模拟人类查表和验证过程。

自动工作流设计: 在通用领域已有尝试（如 AutoGen, DSPy），但在医疗垂直领域，结合特定领域工具（如 ICD 索引查找、指南验证）的自动工作流优化尚属空白。

研究缺口: 缺乏一个专门针对医疗编码领域，能够结合特定领域知识库和工具，自动探索、评估并改进 Agent 工作流的框架。

1.3. 研究目标与核心假设 (Objectives & Hypotheses)

目标: 开发一个名为 MedDCR 的框架，实现医疗编码工作流的自动化设计与优化。

核心假设: 将工作流设计形式化为一个搜索和优化问题，通过 LLM 驱动的迭代反馈循环，可以发现比人类专家手动设计的流程更高效、准确的编码策略。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

范式: 本研究采用元智能体（Meta-Agent）架构结合**迭代搜索（Iterative Search）**的方法论。

核心机制: MedDCR (Design, Code, Reflect)。它不是单一的编码模型，而是一个生成编码系统的系统。

关键创新:

将工作流视为代码: Designer 生成逻辑计划，Coder 将其转化为可执行的 Python 程序。这比单纯的 Prompt 优化更灵活，允许复杂的逻辑控制（循环、条件判断）。

记忆归档 (Memory Archive): 存储历史最佳和最近的工作流，允许系统通过“模仿”优质范例或“探索”新结构来进化，支持从专家设计的种子工作流开始优化 (Plug-and-Play)。

2.2. 核心组件 (Core Components)

Designer Agent (设计者): 基于记忆归档中的示例和先前的反馈，生成新的工作流计划（JSON 格式）。它决定使用哪些工具（如 NER 提取、模糊匹配、指南验证）以及它们的执行顺序。

Coder Agent (编码者): 将抽象计划编译为可执行的 Python 代码。包含**自修复（Self-fixing）**机制，如果代码报错，会自动根据错误信息重写代码，确保证法有效性。

Reflector Agent (反思者): 评估工作流在验证集上的表现。它不仅计算定量指标（F1 分数），还提供文本反馈（Textual Feedback），诊断工作流的缺陷（如“遗漏了关键实体”或“未通过指南检查”）。

2.3. 数据来源与样本 (Data Source & Sample)

基准数据集:

MDACE (MIMIC-III based): 包含住院和专业费用清单，由专家验证的 ICD-10 注释。

ACI-BENCH: 用于基准测试自动化编码系统的合成临床笔记数据集。

工具库: 系统配备了专门的医疗编码工具集，包括 MedicalTermExtraction (术语提取), TabularIndexSearch (查表), GuidelineValidator (指南验证), EvidenceLinker (证据溯源) 等。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

SOTA 性能: MedDCR 在 MDACE 和 ACI-BENCH 上均取得了最佳性能，超越了包括 GPT-4o 直接提示、专家设计的 Agent 工作流（如 RRS, MAC）以及微调的 PLM 模型（如 PLM-ICD）。

自动化优于人工: 自动搜索出的工作流比人类专家精心设计的流水线（Baseline Agentic Methods）表现更好，证明了搜索算法能发现人类忽略的优化点。

成本效益: 尽管包含搜索过程，但推理成本（USD）相对可控，且搜索是一次性投入。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

Table 1 (主结果):

在 MDACE 数据集上，MedDCR-GPT-5 达到了 0.51 的 Micro-F1 分数，而第二名（专家设计的 ADAS）仅为 0.43，PLM-ICD 为 0.48。

在 ACI-BENCH 上，MedDCR-GPT-5 达到了 0.52 F1，显著高于 RRS (0.35) 和 CLH (0.41)。

Figure 2 (搜索过程案例):

展示了随着迭代次数增加，系统发现的工作流性能逐步提升。

早期迭代主要关注实体提取；后期迭代引入了复杂的验证步骤（Validation）和一致性检查（Reconciliation），这表明系统“学会”了通过牺牲少许召回率来大幅提升精确率，从而优化整体 F1。

Table 4 (消融实验):

去掉 Reflector Feedback (反思反馈) 或 Memory Archive (记忆归档) 会导致性能大幅下降（F1 从 0.47 降至 0.43/0.38），证明了闭环反馈和经验积累的重要性。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

为什么有效？: MedDCR 不仅仅是在调优 Prompt，它是在编程解决问题的逻辑。它发现的“最佳工作流”通常包含人类直觉难以一次性构建的复杂逻辑，例如：先广泛召回候选代码，再利用对比筛选（Contrastive Screening）去除相似但不准确的冗余代码，最后利用指南验证器（Guideline Validator）进行合规性过滤。

回答核心问题: 研究证明了医疗编码工作流是可以被“学习”的。通过将设计权交给 Agent 并配备适当的评估机制，AI 可以自我进化出适应特定数据分布的编码策略。

4.2. 理论贡献 (Theoretical Contributions)

提出了首个针对医疗编码领域的自动工作流优化框架。

验证了 Meta-Agent (元智能体) 架构在垂直领域复杂任务中的有效性，即“设计-执行-反思”范式。

展示了即插即用 (Plug-and-Play) 的特性：可以将人类专家的先验知识（Seed Workflows）作为起点，让 AI 在此基础上进行优化，实现了人机智慧的融合。

4.3. 实践启示 (Practical Implications)

实际部署: 医疗机构可以使用该框架针对其特定的科室或文档风格自动生成最优的编码流程，而不是依赖通用的硬编码规则。

可解释性与信任: 生成的 Python 代码工作流是完全透明、可读的。医生可以审查 Agent 生成的逻辑（例如，“为什么这里加了一个过滤步骤？”），这比端到端的黑盒模型更具临床安全性。

4.4. 局限性与未来研究 (Limitations & Future Research)

成本: 优化过程涉及大量的 LLM 调用，计算成本较高（虽然是一次性的）。

基座模型依赖: 依赖通用的 GPT 模型。如果使用经过医学微调的 LLM 作为基座，性能可能更高。

幻觉风险: Reflector Agent 的文本反馈本身可能存在幻觉或误导，需要进一步的约束机制。

多模态缺失: 目前仅处理文本，未来可加入影像数据等多模态信息。

5. 结论 (Conclusion)

MedDCR 提出了一种创新的自动化框架，通过迭代式的设计、编码和反思循环，成功将医疗编码工作流的设计转化为一个机器学习问题。实验表明，该方法不仅在性能上超越了现有的人工设计系统和微调模型，而且生成的 Python 代码工作流具有高度的可解释性和灵活性。这一成果标志着医疗 AI 从“单一模型预测”向“智能系统自动构建”的重要转变。

6. 核心参考文献 (Core References)

MDACE Dataset: Cheng, H., et al. (2023). MDACE: MIMIC documents annotated with code evidence. ACL.

ACI-BENCH: Yim, W., et al. (2023). ACI-bench: a novel ambient clinical intelligence dataset... Nature Scientific Data.

Self-Refine: Madaan, A., et al. (2023). Self-refine: Iterative refinement with self-feedback. NeurIPS.

PLM-ICD: Huang, C. W., et al. (2022). Plm-icd: Automatic icd coding with pretrained language models. ClinicalNLP.

CoT: Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. NeurIPS.

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.