大型语言模型助力临床编码：优化住院病程摘要生成

电子病历 (EMR) 系统中临床文档数量和复杂性的不断增加，给临床编码员带来了巨大挑战，他们必须在脑海中处理和总结大量的临床文本，以提取编码任务所需的基本信息。虽然大型语言模型 (LLM) 近年来已成功应用于较短的摘要任务，但总结住院病程的挑战仍然是一个有待进一步研究和开发的开放领域。在本研究中，我们使用量化低秩自适应 (QLoRA) 参数微调方法，针对住院病程摘要任务调整了三种预训练的 LLM（Llama 3、BioMistral、Mistral Instruct v0.1）。我们通过将各种临床记录连接起来作为输入临床文本，并与从出院摘要中提取的用于模型训练的基本事实“简要住院病程”部分配对，从 MIMIC III 数据创建了一个自由文本临床数据集。使用 BERTScore 和 ROUGE 指标评估经过参数微调的模型，以评估临床领域参数微调的有效性。此外，我们使用专门为临床编码定制的新型住院病程摘要评估指标验证了它们的实际效用。我们的研究结果表明，针对临床领域对预训练的 LLM 进行参数微调可以显着提高其在住院病程摘要方面的性能，并表明它们作为临床编码辅助工具的潜力。未来的工作应侧重于改进数据管理方法，以创建针对住院病程摘要任务定制的更高质量的临床数据集，并调整更先进的开源 LLM（可与专有模型相媲美）以进一步推进这项研究。

1. 论文研究目标与问题背景

论文研究目标

本论文的主要研究目标是开发并验证一种利用大型语言模型（LLMs）进行医院病程摘要自动化的方法，以支持临床编码工作。具体而言，研究团队希望通过微调预训练的语言模型，使其能够理解和总结复杂且多样的电子病历（EMR）数据，生成适合临床编码的病程摘要。

解决的实际问题

随着电子病历系统（EMR）的广泛应用，临床文档的数量和复杂性急剧增加，这给临床编码员带来了巨大的挑战。临床编码员需要从海量临床文本中手动提取关键信息，这一过程既耗时又容易出错。因此，论文旨在解决临床编码中的自动化文本总结问题，提高编码效率和准确性。

问题的新颖性

虽然LLMs在较短的文本总结任务中取得了显著成果，但在病程摘要这一复杂且关键的临床应用上的研究尚不充分。因此，该问题的研究具有创新性。

科学假设与相关研究

科学假设：通过微调预训练的大型语言模型，可以显著提高医院病程摘要的自动化生成质量，从而辅助临床编码工作。

相关研究：论文引用了大量关于临床文本总结的研究，尤其是近年来基于Transformer模型的方法，如BERT和BART在临床文本摘要中的应用。同时，还提及了使用CNN模型进行糖尿病和高血压病例摘要的早期工作。

领域内的知名研究员

论文未直接提及具体的研究员，但提到了多个研究机构如Beth Israel Deaconess Medical Center和University of New South Wales的相关工作，这些机构在医疗信息学和人工智能领域具有较高的知名度。

2. 论文提出的新思路、方法或模型

新思路与方法

论文提出了以下新思路和方法：

数据预处理与构建：从MIMIC III数据集中构建了一个包含临床笔记和对应病程摘要的自由文本数据集。通过数据清洗、伪名化处理、时间线重构等方法，确保了数据的质量和隐私保护。
模型选择与微调：选择了三种预训练的LLMs（Llama 3、BioMistral、Mistral Instruct v0.1）进行微调。使用Quantized Low-Rank Adaptation（QLoRA）技术进行高效微调，显著降低了计算成本。
指令提示：在模型微调和推理过程中，引入了指令提示技术，明确指导模型生成符合临床编码需求的病程摘要。

关键解决方案

数据驱动的微调：利用大量真实世界临床数据对预训练模型进行微调，使其适应临床文本摘要的特定需求。
高效微调技术：采用QLoRA技术，在保持模型性能的同时大幅减少计算资源消耗。
临床效用评估：设计了一个新型评估指标CHoCoSA，专门针对临床编码的实用性进行评估，弥补了现有自动评估指标的不足。

特点与优势

与以往方法相比，本论文的方法在以下几个方面具有显著优势：

更高的实用性：通过CHoCoSA评估指标，确保生成的摘要符合临床编码的实际需求。
计算效率：采用QLoRA技术显著降低了微调过程中的计算成本。
广泛适用性：通过微调三种不同类型的LLMs，展示了方法的普适性和灵活性。

3. 实验设计与结果验证

实验设计

数据集：使用MIMIC III数据集中的33,255个EMR笔记及其对应的病程摘要作为训练和评估数据。
微调与评估指标：采用QLoRA技术对三种预训练模型进行微调，并使用BERTScore和ROUGE系列指标进行自动评估。同时，设计了CHoCoSA指标进行临床效用评估。
对比实验：对比了微调前后的模型性能，以及不同模型在不同上下文长度下的表现。

实验数据与结果

自动评估结果：微调后的模型在BERTScore和ROUGE系列指标上均表现出显著提升，尤其是BioMistral和Mistral Instruct v0.1在微调后表现尤为出色。
临床效用评估：CHoCoSA评估显示，Mistral Instruct v0.1在包含医疗事件和诊断信息的摘要部分表现最佳。
上下文长度分析：结果显示，微调后的模型在不同上下文长度下均能保持稳定的性能。