比较用于临床笔记生成的两种模型设计；LLM 是否是评估一致性的有效工具？

在与患者互动后，医生负责提交临床记录，这些记录通常被组织成 SOAP 笔记的形式。临床笔记不仅仅是对对话的总结，还需要使用适当的医疗术语。然后可以根据 SOAP 笔记的结构提取和组织相关信息。在这篇论文中，我们分析了基于对话音频录音生成 SOAP 笔记不同部分的两种不同方法，并特别从笔记一致性的角度对其进行了考察。第一种方法是独立生成各部分，而第二种方法是同时生成所有部分。在这项工作中，我们使用了 PEGASUS X Transformer 模型，并观察到两种方法产生的 ROUGE 值非常接近（差异小于 1%），并且在事实性指标上没有差异。我们进行了人类评估来衡量一致性的各个方面，并证明了像 Llama2 这样的 LLM 可以用于执行相同任务，其一致性与人类注释员基本一致。在 Llama2 分析和人类审查人员之间，我们观察到一致性方面的 Cohen Kappa 统计量分别为 0.79、1.00 和 0.32，分别对应于年龄、性别和身体部位损伤的一致性。通过这个例子，我们证明了利用 LLM 来衡量人类可以识别但当前自动指标无法捕捉的质量指标的有效性。这允许我们对更大的数据集进行评估，我们发现通过为每个新部分设置之前生成所有部分的输出作为条件，可以提高临床笔记的一致性。

一、引言

本文由Nathan Brake和Thomas Schaaf撰写，主要探讨了在临床记录生成中两种不同模型设计的比较，并探讨了大型语言模型（LLM）在评估临床记录一致性方面的实用性。在医生与患者互动后，生成准确的临床文档（通常组织为SOAP笔记）是一项重要任务。本书通过分析基于对话录音生成SOAP笔记不同部分的两种方法，特别关注它们在记录一致性方面的表现。

二、方法介绍

独立生成法：该方法独立地生成SOAP笔记的各个部分，没有考虑各部分之间的关联性。
整体生成法：与第一种方法不同，整体生成法一次性生成SOAP笔记的所有部分，考虑了它们之间的逻辑和上下文联系。

本书使用了PEGASUS-X Transformer模型来实现这两种方法，并通过实验发现两种方法在ROUGE值和事实性度量上均表现出相似的性能，差异小于1%。

三、实验评估

为了更全面地评估这两种方法在实际应用中的一致性表现，本书进行了人工评价，并与LLM（特别是Llama2）的评估结果进行了对比。人工评价结果显示，Llama2在评估年龄、性别和身体部位损伤的一致性方面，与人类注释者具有大致相同的准确率。其中，在年龄、性别和身体部位损伤的一致性评估上，Llama2与人类评审员之间的Cohen Kappa评分分别为0.79、1.00和0.32，显示出了较高的可靠性。

四、结果讨论

本书的结果表明，利用LLM来测量人类可以识别但当前自动度量无法捕捉的质量指标是可行的。这种方法使得对更大数据集的评价成为可能，并发现通过基于先前生成的所有部分来生成每个新部分，可以提高临床记录的一致性。这一发现对于提高临床文档的准确性和效率具有重要意义。

五、结论与展望

本书的研究为临床记录生成领域提供了新的视角和工具，证明了LLM在评估临床记录一致性方面的实用性。未来研究可以进一步探索LLM在临床记录生成和评估中的潜力，以及如何优化模型以提高其在处理复杂医学术语和上下文联系方面的能力。此外，随着技术的不断进步，我们有望看到更加智能和高效的临床记录生成系统，为医疗行业的数字化和智能化发展贡献力量。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.