Digital Health Insider: 利用大型语言模型驯服 CPT E/M 编码中的真实世界复杂性

论文信息

标题 (Title)：Taming the Real-world Complexities in CPT E/M Coding with Large Language Models

作者 (Authors)：Islam Nassar, Yang Lin, Yuan Jin, Rongxin Zhu, Chang Wei Tan, Zenan Zhai, Nitika Mathur, Thanh Tien Vu, Xu Zhong, Long Duong, Yuan-Fang Li

发表年份 (Year)：2025

原文链接 (URL)：https://arxiv.org/abs/2510.25007

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：评估与管理 (E/M) 编码是医疗计费的核心环节，但其手动操作过程资源密集、易于出错且不一致，导致巨大的经济损失和合规风险。本研究旨在解决自动化 CPT E/M 编码面临的真实世界复杂性（如缺乏中间标签、标签噪声、可解释性要求等），并提出一个名为 ProFees 的、基于大型语言模型 (LLM) 的自动化编码框架。

方法 (Methods)：ProFees 框架采用了一种模块化的、多阶段的混合架构。首先，一个“就诊类型分类器”判断就诊的基本类型。然后，核心的“医疗决策 (MDM) 复杂度分类器”通过动态少样本思维链 (Few-Shot CoT) 提示进行初步预测，即从一个向量数据库中检索与当前病例最相似的、带有完整推理过程的范例来引导模型。接着，一个递归批判与改进 (RCI) 模块中的多个“批判家”LLM 对初步预测的各个维度（问题、数据、风险）进行审核和修正。为了确保结果的稳定性和可重复性，系统采用自洽性集成 (Self-Consistency) 策略，即并行运行三次并进行多数投票。最后，一个确定性的决策树模块根据 LLM 的输出和明确的 CPT 规则生成最终的编码和可供审计的理由。

结果 (Results)：在一个由内部专家精细标注的真实世界数据集上，完整的 ProFees 框架表现出色。与一个商业化的 CPT E/M 编码系统相比，其编码准确率提升了超过 36%。与最强的单一提示基线模型相比，准确率提升了近 5%。结果验证了该框架在解决真实世界编码复杂性问题上的有效性。

结论 (Conclusion)：ProFees 框架通过系统性地结合动态检索、自我批判、集成投票和规则逻辑，成功地应对了自动化 CPT E/M 编码的挑战。这项工作不仅展示了 LLM 在一个高度规范和复杂的生产环境中的应用潜力，还为其他需要将自由文本映射到遵循严格规则的结构化决策的领域提供了宝贵的实践蓝图。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

CPT E/M 编码是美国医疗系统中用于描述医生服务并进行计费的标准化代码体系。准确的编码直接关系到医院的收入、合规性及运营效率。然而，传统的手动编码过程由医生或专业编码员完成，他们需要根据复杂的医疗决策 (MDM) 指南来解读非结构化的临床病历（EHR），这一过程不仅耗时耗力，而且由于编码员专业水平和主观判断的差异，导致编码不一致和错误频发。研究表明，仅2010年，美国联邦医保就因错误的 E/M 编码不当支付了 67 亿美元，编码错误问题造成了巨大的经济损失。

自动化 E/M 编码具有巨大潜力，但面临五大真实世界的挑战（见原文表 1）：

缺乏中间标签：生产数据通常只有最终的 CPT 代码，而决定该代码的关键中间步骤——MDM 的三个要素（问题、数据、风险）的复杂度等级——是缺失的。

标签噪声：即使是专家编码员之间也存在巨大分歧。在本研究的数据中，内外部专家的编码在 56% 的病例上不一致。

可解释性要求：临床医生和审计员需要清晰、可追溯的编码理由，黑箱模型是不可接受的。

鲁棒性要求：生产系统必须提供稳定、可重复的输出，而 LLM 的随机性是一个潜在障碍。

临床广度要求：编码需要覆盖广泛的临床场景和边缘案例，对模型的知识深度和广度要求极高。

本文要回答的核心研究问题 (Research Questions, RQs) 是：
如何设计一个基于 LLM 的自动化框架，能够系统性地解决上述真实世界中的复杂性，从而实现准确、可解释且鲁棒的 CPT E/M 编码？

这是一个新的问题，因为它超越了简单的模型应用，聚焦于在一个受严格监管、充满噪声和具有高可解释性要求的生产环境中，构建一个端到端的、工程化的解决方案。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

自动化医疗编码的研究经历了三个阶段：

经典机器学习：依赖于复杂的特征工程，难以处理临床叙述的多样性。

深度学习：尽管在 ICD 编码中取得成功，但在 CPT 编码上因缺乏大规模标注数据而受限，效果不佳。

大型语言模型 (LLMs)：初步研究表明，简单地将原始病历喂给 LLM（即朴素提示）效果不佳，无法与人类编码员匹敌。

本文所针对的“研究缺口”(Gap) 在于：目前缺乏一个系统性的、专门为 CPT E/M 编码设计的、能够克服真实世界数据和应用挑战的有效 LLM 框架。 本文是该方向上的首次系统性尝试。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：
开发并部署一个名为 ProFees 的、复杂的 LLM 框架，用于自动化 CPT E/M 编码，并通过与商业系统和基线模型的比较，系统性地评估其在真实世界数据集上的有效性。

核心假设 (Hypotheses)：

H1: 一个模块化的、分阶段的 LLM 架构，比单一的、端到端的提示方法更能准确地完成 CPT E/M 编码任务。

H2: 通过动态检索与当前病例相关的、包含推理过程的范例（动态少样本 CoT），可以提高模型在具体案例上的推理准确性。

H3: 引入一个专门的“批判”阶段（RCI），让 LLM 对其自身的初步判断进行审核和修正，可以有效纠正中间步骤的错误。

H4: 采用集成策略（如多数投票的自洽性方法）可以克服 LLM 输出的随机性，提高系统的鲁棒性和可靠性。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用建构性研究 (Constructive Research) 的范式，即通过设计、构建并评估一个名为 ProFees 的创新性人造物（系统），来解决一个明确的现实世界问题。

ProFees 的核心方法论与架构 (见原文图 2)：
ProFees 的设计思想是模块化、分治和迭代求精，它将复杂的编码任务分解为一系列由 LLM 和确定性规则共同完成的子任务。

模块化分解：整个框架分为两个主要的 LLM 驱动模块：

就诊类型分类器 (Encounter Type Classifier)：一个相对简单的分类器，用于判断就诊是门诊、住院还是预防性医疗等。

MDM 复杂度分类器 (MDM Complexity Classifier)：这是框架的核心和最复杂的部分，负责确定 MDM 的三个要素（问题、数据、风险）的复杂度等级。

MDM 复杂度分类器的两阶段预测流程：

阶段一：初始预测（基于动态少样本 CoT）

系统维护一个向量数据库 (VDB)，其中存储了由专家标注和验证过的高质量编码范例。每个范例不仅包含最终编码，还包含详细的思维链 (Chain-of-Thought, CoT) 推理过程和符合指南的理由。

当处理一个新的病例时，系统会用该病例的病历（SOAP note）作为查询，从 VDB 中检索出 N 个（本文 N=3）语义上最相似的范例。

这些检索到的高质量范例被动态地注入到 LLM 的提示中，为模型提供与当前案例高度相关的上下文和推理模板，引导其做出初步的 MDM 等级判断。

阶段二：自我精炼（基于递归批判与改进 RCI）

为了克服 LLM 可能存在的错误或对指南理解不深的问题，系统引入了三个专门的“批判家”LLM。每个批判家负责审核初始预测中的一个 MDM 要素（问题、数据或风险）。

每个批判家都遵循一个由人类专家设计的、针对该要素常见错误的清单 (checklist)，来对初始预测进行系统性的审查和修正。

鲁棒性增强（通过自洽性与多数投票）：

为了解决 LLM 输出的随机性问题，整个 MDM 复杂度分类器会并行运行 K 次（本文 K=3）。

对于每个 MDM 要素，系统对 K 次运行的结果进行多数投票，以产生一个更稳定、更可靠的共识结果。

确定性决策（通过决策树）：

最后，LLM 生成的就诊类型和经过 RCI 与投票后的 MDM 三要素等级，被输入到一个基于规则的决策树中。

这个决策树严格执行 CPT 官方指南中的确定性逻辑（例如，MDM 等级由三要素中的“第二高”等级决定），最终输出 CPT 代码和一份完整的、可供审计的推理报告。

解决方案的关键在于它是一个混合智能系统，巧妙地结合了 LLM 的强大语言理解和推理能力与传统规则引擎的确定性和可靠性。它不信任 LLM 会一步到位地解决问题，而是通过检索、批判、投票、规则等多重机制来约束和校准 LLM 的行为。

与之前方法的特点和优势：

可解释性：通过 CoT 和批判家输出，全程生成人类可读的推理路径。

指南对齐：RCI 模块确保了模型的决策过程严格遵循复杂的 CPT 指南。

上下文感知：动态少样本检索使得模型能够根据具体病例调整其“思考”方式。

生产就绪：自洽性投票和确定性决策树确保了输出的稳定和可重复，满足生产环境的要求。

2.2. 数据来源与样本 (Data Source & Sample)

数据来源：来自医院生产数据库的 216 份真实的、匿名的门诊/预防性医疗就诊记录。每份记录包含一份 SOAP 格式的病历和相关的 EHR 数据。

数据标注：这是一个核心挑战和贡献。原始数据只包含医生和专业编码员给出的最终 CPT 代码。为了训练和评估模型，研究团队邀请了一位内部医学专家对 117 份就诊记录进行了精细化的重新标注，不仅给出了最终的 CPT 代码，还为 MDM 的三个要素明确了复杂度等级，并撰写了详细的自由文本理由。

数据集划分：根据内部专家和外部专业编码员的标注是否一致，将开发数据集划分为：

Platinum (52例)：两者一致，作为高置信度的“黄金标准”数据，用于初步的提示调优。

Disagreement (65例)：两者不一致，代表了更模糊、更具挑战性的案例，用于后续的迭代优化和错误分析。

测试集 (99例)：一个独立的、未用于开发的测试集，同样经过内部专家的精细标注。

2.3. 操作化与测量 (Operationalization & Measurement)

评估指标：严格的精确匹配准确率 (Exact-match accuracy)。由于 CPT 编码用于计费，任何偏差都可能导致拒付或审计风险，因此“接近”的答案没有意义。评估在多个粒度上进行：

最终 CPT 代码准确率

整体 MDM 等级准确率

PC / DC / RC 准确率（问题/数据/风险三个要素各自的复杂度等级准确率）

基线模型：

System A：一个商业化的、基于规则的 CPT E/M 编码软件。

Single prompt (系列)：四个不同复杂度的单一提示基线，从最简单的“病历+问题”到包含完整上下文信息和 CoT 指令的复杂提示。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

ProFees 框架显著优于所有基线：如表 3 所示，完整的 ProFees 模型（Few-Shot + RCI | Full）在最终 CPT 代码准确率上，比商业系统 A 提升了 36.85%（从 -3.12% 提升到 +33.73%），比最强的单一提示基线提升了 4.73%（从 +29.00% 提升到 +33.73%）。

每个组件都贡献了显著的性能提升：

动态少样本 (Few-Shot) 相比零样本 (Zero-Shot) 能带来显著提升，证明了上下文检索的价值。

递归批判与改进 (RCI) 模块极大地提升了中间步骤（MDM 要素）的准确率。例如，它使 Few-Shot 模型的 MDM 整体准确率提升了约 4 个百分点。

自洽性 (Self-Consistency) 也能带来稳定的性能增益。在 K=3 时，CPT 和 MDM 准确率分别提升了 1.2% 和 2.7%（见图 3）。

ProFees 在中间步骤的预测上优势更明显：完整的 ProFees 模型在 MDM 三要素（PC, DC, RC）的准确率上，比最强的单一提示基线高出 8-17 个百分点，表明该框架不仅猜对了最终答案，更重要的是正确地完成了中间的推理步骤。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

表 3: 在测试集上的准确率提升结果

内容解读：该表的核心是展示不同模型配置相对于一个基础基线（“Single prompt”）的准确率提升值。正数表示更好，负数表示更差。

揭示关系：从上到下，随着 ProFees 框架的组件不断增加（从 Zero-Shot 到 Zero-Shot+RCI，再到 Few-Shot，最后到完整的 Few-Shot+RCI），CPT、MDM 以及各子项的准确率提升值几乎是单调递增的。这清晰地展示了每个组件的累加效应。

关键数据支撑：ProFees (Few-Shot + RCI | Full) 行的数据是最终结论的核心。其 CPT 准确率提升 33.73%，而最强的基线 "Single prompt + Full Info + CoT" 提升 29.00%。这 4.73% 的差距就是 ProFees 复杂架构带来的净收益。更引人注目的是 MDM 准确率，ProFees 提升了 33.99%，而最强基线仅提升 22.36%，差距超过 11个百分点，证明 ProFees 在“正确地做事”而非仅仅“猜对答案”方面具有压倒性优势。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

ProFees 的成功并非偶然，它深刻地揭示了在复杂、规范化领域成功应用 LLM 的关键原则：不要将 LLM 视为一个全能的黑箱，而应将其视为一个强大的、但需要被引导、监督和校正的“推理引擎”。该框架的每一个组件都是为了弥补 LLM 的某个固有缺陷而设计的：

动态少样本 解决了 LLM 上下文不足和知识泛化的问题。

RCI (批判家) 解决了 LLM 可能忽略规则细节或产生“看似合理但不正确”的推理的问题。

自洽性投票 解决了 LLM 输出不稳定的问题。

决策树 解决了 LLM 难以完美执行确定性规则的问题。
这个结果表明，未来的高级 AI 系统很可能不是一个巨大的、端到端的模型，而是一个由多个 LLM、检索系统和规则引擎协同工作的混合智能系统。

4.2. 理论贡献 (Theoretical Contributions)

提出了一个生产级 LLM 应用的架构蓝图：ProFees 是一个将多种前沿 LLM 技术（Few-shot, CoT, Self-criticism, Self-consistency）系统性地工程化，并与传统方法（VDB, 规则引擎）相结合的范例。它为如何在其他受监管领域（如法律、金融、合规）构建可靠的 LLM 应用提供了可复用的模式。

实证了“批判-改进”循环的价值：虽然“自我修正”是 LLM 研究的一个热点，但本文通过 RCI 模块提供了一个更结构化、更可控的实现方式，并用实验数据证明了其在复杂任务中的显著效果。

对业界的影响：这项工作对所有试图将 LLM 从“聊天玩具”转变为可靠生产力工具的公司都具有重大意义。它证明了通过精心的系统设计和工程投入，LLM 可以在对准确性和可解释性要求极高的核心业务流程中创造巨大价值。对于 Oracle Health 这样的 EHR 巨头，这意味着自动化医疗编码这一长期难题有了切实可行的解决方案。

4.3. 实践启示 (Practical Implications)

对 AI 系统架构师：在设计基于 LLM 的解决方案时，应优先考虑模块化设计，将任务分解，并为 LLM 的每个决策环节设计验证和校正机制。

对医疗 IT 部门：自动化编码工具的准确率已达到可以辅助人类的水平。部署此类工具可以极大减轻医生和编码员的负担，让他们专注于更复杂的病例，同时提高计费的准确性和效率。

对需要处理复杂文档和规则的行业：ProFees 的设计思想可以被广泛借鉴。任何需要将非结构化文本（如合同、报告、法规）依据一套复杂规则转化为结构化输出的任务，都可以尝试类似的架构。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：

数据集的局限：由于隐私和法规限制，本研究使用的数据集规模较小且不公开，这限制了结果的可复现性。

任务范围的局限：ProFees 目前主要处理单次就诊的单个 E/M 编码，尚未支持更复杂的场景，如一次就诊涉及多个编码或需要添加修饰符。

未来研究：

扩展功能：支持多编码预测和 CPT 修饰符的生成。

数据增强：研究如何生成高质量的合成数据，以扩大训练集，覆盖更多的边缘案例。

丰富向量数据库：持续扩充 VDB，使其包含更广泛的临床范例，进一步提升动态检索的效果。

5. 结论 (Conclusion)

本文系统性地研究了在生产环境中自动化 CPT E/M 编码的真实世界挑战，并提出了一个名为 ProFees 的、先进的模块化 LLM 框架。ProFees 通过创新性地结合动态少样本思维链检索、递归批判与改进、自洽性集成投票以及确定性规则逻辑，成功地解决了 LLM 在高要求任务中的准确性、可解释性和鲁棒性问题。在一个真实的、由专家精细标注的测试集上，ProFees 的性能显著超越了现有的商业系统和强大的基线模型，证明了其在复杂、规范化应用场景中的巨大潜力。这项工作为构建下一代可靠、可信的 AI 驱动的自动化解决方案提供了坚实的工程基础和实践范例。

6. 核心参考文献 (Core References)

Brown, T. B., et al. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.

（首次提出 in-context learning 的 GPT-3 论文，是 ProFees 中“动态少样本”方法的理论基础。）

Wei, J., et al. (2023). Chain-of-thought prompting elicits reasoning in large language models. Preprint, arXiv:2201.11903.

（开创了思维链 (CoT) 提示，是 ProFees 实现可解释性的关键技术之一。）

Kim, G., et al. (2023a). Language models can solve computer tasks. Advances in Neural Information Processing Systems (NeurIPS).

（本文引用该文献作为“递归批判与改进 (RCI)”方法的来源，是 ProFees 自我精炼模块的核心思想。）

American Medical Association. (2023). CPT® 2024 Professional Edition.

（CPT E/M 编码的官方指南，是整个任务的“圣经”和“法律”，是 ProFees 系统所有规则和逻辑的最终依据。）

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

利用大型语言模型驯服 CPT E/M 编码中的真实世界复杂性