Digital Health Insider

生成式人工智能在多模态医学合成数据中的应用：最新进展与挑战的系统评价

本文系统回顾了生成模型（如生成对抗网络、变分自编码器、扩散模型和大型语言模型）在合成多种医学数据类型方面的应用，包括影像数据（皮肤镜、乳腺 X 线、超声、CT、MRI 和 X 光）、文本数据、时间序列数据和表格数据（电子健康记录）。与以往侧重于特定领域的研究不同，本综述涵盖了广泛的医学数据模态，并探讨了各种生成模型。我们检索了 Scopus、PubMed 和 ArXiv 等数据库，重点关注 2021 年 1 月至 2023 年 11 月期间发表的最新研究成果，排除了综述和观点类文章。这反映了生成模型领域近年来取得的快速发展，尤其是在生成对抗网络之外的模型方面。本综述从三个关键方面进行了阐述：(1) 合成数据的应用场景和目的；(2) 生成技术；(3) 评估方法。研究强调了合成数据在满足不同临床需求方面的巨大潜力，并介绍了一些具有临床应用价值的合成案例。目前，包含类别标签、分割掩码和图像转换等信息的条件生成模型较为普遍。然而，如何利用先验临床知识和患者的个体化信息生成更具个性化的合成数据，仍是一个亟待解决的问题。此外，合成数据在医学人工智能模型验证和评估等方面的应用也尚待探索。本综述还指出，目前缺乏针对医学图像设计的标准化评估方法，这阻碍了合成数据在临床实践中的应用。未来需要开发更深入的评估方法、建立基准测试平台、开展比较研究，以促进该领域的开放与合作。

1. 论文研究目标

该论文的研究目标是开发一个名为EHRmonize的框架，利用大语言模型（LLMs）从电子健康记录（EHRs）中自动抽象医疗概念。具体来说，EHRmonize旨在通过自动化EHR数据的分类和标准化，提高数据处理的效率和可扩展性。

实际问题

EHR数据包含大量复杂信息，但由于不同医疗机构间记录实践的显著差异性（如术语不一致、本地编码系统、标准不断变化等），导致数据和谐化（harmonization）和处理成为一项既具有挑战性又成本高昂的任务，往往需要大量的临床专业知识。传统方法如手动抽象和图表审核既耗时又容易出错，且专家资源有限。

是否是新问题

尽管EHR数据和谐化一直是一个难题，但利用LLMs自动从EHR中抽象医疗概念是一个相对较新的研究方向。随着LLMs在医疗领域展现出潜力，如何有效应用这些模型来加速EHR数据处理成为了一个值得探索的新问题。

对产业发展的重要意义

该问题的有效解决将极大降低EHR数据使用的门槛，促进更多研究人员和机构利用这些数据，加速医疗健康研究和分析。此外，自动化数据处理还能显著提升效率，减少人工错误，从而推动医疗健康产业的数据驱动决策和智能化发展。

2. 论文新的思路和方法

论文提出了EHRmonize框架，该框架利用LLMs的能力来自动化EHR数据的清洁和分类。具体步骤包括：

语料库生成：通过SQL查询从EHR数据库中提取相关文本/概念。
LLM推理：利用few-shot prompting将原始输入转换为标准化类别。

解决方案的关键

Few-shot prompting：通过提供少量代表性示例来指导LLM完成任务，减少了大量标注数据的需求。
多模型评估：评估了五种不同的LLMs（包括GPT-4o、Claude-3.5-Sonnet等），以探索不同模型在EHR数据抽象任务中的表现。

特点和优势

与传统方法相比，EHRmonize具有以下特点和优势：

自动化和高效性：显著减少了手动标注时间，提高了数据处理效率。
可扩展性：通过利用LLMs的泛化能力，可扩展到更多种类的医疗概念抽象任务。
灵活性：few-shot prompting策略使得模型能够快速适应新任务，无需重新训练。

3. 论文实验设计

论文通过以下实验验证了EHRmonize框架的有效性：

数据集：从MIMIC-IV和eICU-CRD两个真实世界的EHR数据库中提取并标注了398条药物数据记录，涵盖两种自由文本提取任务和六种二元分类任务。
模型评估：评估了五种LLMs（Anthropic的Claude-3.5-Sonnet、Meta的Llama3-70B、Mistral的Mixtral-8x7B、OpenAI的GPT-3.5-Turbo和GPT-4o）在不同prompting策略和温度设置下的表现。
性能指标：主要评估了准确率、F1分数和时间节省等指标。

实验数据和结果

准确率：GPT-4o在所有任务中表现最佳，如抗生素分类准确率达到100%，药物通用名提取准确率为82%，通用途径名识别准确率为97%。
时间节省：EHRmonize显著减少了标注时间，估计节省了约60%。
N-shot prompting：GPT-4o和Claude-3.5-Sonnet在增加示例数量时表现稳定，而GPT-3.5-Turbo在某些任务中性能下降。

支持科学假设

实验结果很好地支持了论文的科学假设，即LLMs能够显著提高EHR数据抽象的效率和准确性，通过自动化处理减少人工干预，从而加速医疗健康研究和数据分析。

4. 论文论文贡献

EHRmonize框架：提出了一个利用LLMs从EHR中自动抽象医疗概念的框架，为数据和谐化提供了新工具。
公开数据集：提供了标注好的药物数据集，促进了研究的可复现性和进一步探索。
综合评估：对五种LLMs进行了全面评估，为模型选择提供了实用指南。

业界影响

加速医疗健康研究：通过自动化数据处理，降低研究门槛，加速医疗知识的发现和传播。
提升数据质量：减少人工错误，提高EHR数据的准确性和一致性。
推动AI应用：为LLMs在医疗健康领域的更广泛应用奠定了基础。

潜在应用场景和商业机会

药物安全监测：自动识别和分类药物使用情况，支持药物不良反应监测和风险评估。
临床决策支持：利用EHRmonize提取的患者信息，为医生提供个性化治疗建议。
保险理赔自动化：快速处理医疗索赔请求，减少理赔周期和成本。

工程师应关注的方面

模型选择和优化：了解不同LLMs在特定任务中的表现，探索更高效的prompting策略和模型调参方法。
数据处理和标注：关注如何高效地从EHR中提取和标注数据，以支持模型训练和评估。
系统集成：考虑如何将EHRmonize框架集成到现有的医疗信息系统中，实现无缝对接和数据共享。

5. 未来值得探索的问题和挑战

扩展数据集和任务类型：当前数据集仅涵盖药物数据，未来可扩展到实验室结果、护理记录等其他类型的EHR数据。
处理更复杂的概念：当前研究聚焦于较为简单的概念和分类任务，未来需探索如何处理更复杂的医疗概念和关系。
模型可解释性和偏差：LLMs的决策过程往往缺乏透明度，未来需研究如何提高模型的可解释性，并减少潜在的偏差和错误。
实时数据处理：当前研究主要关注离线数据处理，未来可探索如何实现实时EHR数据抽象和分类。

新的技术和投资机会

LLM定制和优化：针对医疗领域的特定需求，定制和优化LLMs，提高其在医疗概念抽象任务中的性能。
集成AI工具平台：开发集成多种AI工具的平台，为医疗机构提供一站式的数据和谐化、分析和决策支持服务。
医疗数据服务：基于EHRmonize等技术，提供医疗数据清洗、标注和抽象服务，满足研究机构和企业的数据需求。

6. 论文不足及缺失

数据集规模有限：当前数据集仅包含398条记录，规模较小，可能无法全面反映LLMs在实际应用中的性能。
任务多样性不足：研究主要聚焦于药物数据的抽象任务，未涉及更广泛的临床概念和关系。
偏差和可解释性问题：论文未深入探讨LLMs在医疗概念抽象过程中可能引入的偏差和模型决策的可解释性。

需要进一步验证和存疑的

跨数据集泛化能力：未来需在不同来源和规模的EHR数据集上验证EHRmonize的泛化能力。
长期效果评估：研究LLMs在长时间尺度上的性能稳定性和适应性，特别是在医疗实践和标准不断变化的情况下。
临床专家反馈：收集临床专家对EHRmonize输出结果的反馈，评估其对临床决策的实际价值。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

EHRmonize：利用大型语言模型从电子健康记录中抽象医学概念的框架

电子健康记录（EHR）包含海量复杂信息，但协调处理这些信息需要专业的临床知识，成本高昂且极具挑战性。虽然大型语言模型 (LLM) 已在多个医疗应用场景中展现出巨大潜力，但其在从 EHR 中提取医学概念方面的能力尚未得到充分挖掘。为此，我们提出了 EHRmonize，这是一个利用 LLMs 从 EHR 数据中抽象医学概念的框架。本研究使用来自两个真实世界 EHR 数据库的药物数据，评估了五个 LLMs 在两项自由文本提取任务和六项二元分类任务中的表现，涵盖了多种提示策略。结果表明，采用 10 次提示的 GPT-4o 在所有任务中均取得了最佳性能，Claude-3.5-Sonnet 在部分任务中也表现出色。例如，GPT-4o 在识别通用给药途径、通用药物名称和抗生素二元分类任务中的准确率分别达到了 97%、82% 和 100%。尽管 EHRmonize 能够显著提高效率，将标注时间缩短约 60%，但我们依然强调临床医生的监督不可或缺。EHRmonize 框架已被打包成 Python 库，旨在为临床医生提供 EHR 数据抽象的实用工具，有望加速医疗研究进程，并改进数据协调流程。

1. 论文研究目标

论文“EHRmonize: A Framework for Medical Concept Abstraction from Electronic Health Records using Large Language Models”旨在利用大型语言模型（LLMs）从电子健康记录（EHRs）中抽象出医学概念，以提高EHR数据处理的效率和准确性。

解决的实际问题

EHRs包含了大量复杂的数据，但数据的标准化和处理仍然是一项既具挑战性又成本高昂的任务，需要丰富的临床专业知识。传统方法依赖于手动抽象（如清洗、分类和汇总）和图表审查，这些方法耗时、费力且易出错。此外，不同医院系统间的数据记录实践存在显著差异，包括术语不一致、本地编码系统和不断演变的标准，这些都进一步增加了数据处理的难度。

是否是新问题

这个问题并非全新，但利用LLMs来自动化EHR数据的抽象和标准化是一个相对较新的方向。随着LLMs在医学领域的潜力逐渐显现，探索其在EHR数据处理中的应用具有重要意义。

对产业发展的重要意义

EHR数据的有效处理和标准化是医疗信息化和AI在医疗领域广泛应用的基础。通过自动化这一过程，可以显著降低人力成本，提高数据质量，进而加速医疗研究和数据分析的进程，为精准医疗、流行病学研究、药物警戒等多个领域提供强有力的数据支持。

2. 论文新思路和方法

论文提出了EHRmonize框架，这是一个利用LLMs从EHR数据中抽象医学概念的自动化工具。该框架包含两个主要组件：语料库生成（从EHR数据库中提取相关文本/概念）和LLM推理（通过少量示例提示将原始输入转换为标准化类别）。

解决方案的关键

利用LLMs：EHRmonize框架充分利用了LLMs在理解和生成人类语言方面的能力，尤其是在医学领域的丰富知识。
少量示例提示（few-shot prompting）：通过向LLMs提供少量的示例，模型能够学会将新的EHR条目映射到预定义的类别中，而无需大量的标注数据。

特点和优势

灵活性：相比传统的规则基系统或基于硬编码查询的方法，EHRmonize更加灵活，能够适应医学术语和编码系统的变化。
高效性：自动化处理显著提高了数据抽象的效率，减少了人工标注的时间。
可扩展性：LLMs的广泛应用潜力使得EHRmonize框架能够轻松扩展到其他医学领域的数据处理任务中。

3. 论文实验设计

论文中，研究者使用了两个真实世界的EHR数据库（MIMIC-IV和eICU-CRD）中的药物数据，评估了五种LLMs在两种自由文本提取任务和六种二元分类任务上的性能。这些任务涵盖了从EHR中提取通用药物名称和给药途径，以及将药物-给药途径对分类为抗生素、抗凝剂、电解质等。

实验数据和结果

数据集：研究者从两个数据库中分别标记了398个条目，用于训练和评估模型。
模型性能：GPT-4o在所有任务中表现最佳，尤其是在抗生素分类任务中达到了100%的准确率。在通用药物名称提取任务中，GPT-4o的准确率达到了82%。
N-shot提示的影响：GPT-4o和Claude-3.5-Sonnet在增加示例数量时表现出稳定的高性能，而GPT-3.5-Turbo在某些任务上的性能反而下降。
效率提升：EHRmonize显著减少了标注时间，估计节省了约60%的时间。

支持科学假设

实验结果有力地支持了论文的科学假设，即LLMs能够显著提高EHR数据抽象的效率和准确性。GPT-4o的卓越表现证明了大型语言模型在处理复杂医学文本时的巨大潜力。

4. 论文贡献

提出了EHRmonize框架：为自动化EHR数据抽象提供了一个新的解决方案。
全面评估了LLMs：通过一系列实验，揭示了不同LLMs在EHR数据处理任务中的性能和局限性。
开源实现：将EHRmonize作为Python包发布，促进了研究的可复现性和进一步的应用开发。

对业界的影响

提高效率：自动化EHR数据抽象将显著降低医疗信息化过程中的人力成本和时间成本。
促进研究：标准化的EHR数据将加速医疗研究和数据分析的进程，推动精准医疗等领域的发展。
增强决策支持：高质量的EHR数据为临床决策支持系统和医疗AI应用提供了更可靠的数据基础。