PRISM：使用大型语言模型进行语义临床试验匹配的患者记录解读

临床试验匹配的任务是识别患者可能有资格参与的试验。通常，这项工作劳动密集型，需要人工核实患者的电子健康记录（EHR），并与临床试验严格的纳入和排除标准进行比对。这个过程是人工的、耗时的，而且很难扩大规模，导致许多患者错过了潜在的治疗选择。最近，大型语言模型（LLM）的发展使自动化患者-试验匹配成为可能，多个同时进行的研究小组已经证明了这一点。然而，目前的做法局限于受限的、通常是不真实的数据集，这些数据集不能充分反映现实世界中医疗数据的复杂性。在这项研究中，我们使用现实世界的电子健康记录（EHR），进行了首个端到端的临床试验匹配大规模实证评估。我们的研究展示了 LLM 在准确匹配患者与合适的临床试验方面的强大能力。我们使用专有 LLM（包括 GPT-4 和 GPT-3.5）以及我们定制的微调模型 OncoLLM 进行了实验，结果表明，尽管 OncoLLM 的规模小得多，但它不仅超越了 GPT-3.5，而且其表现与合格的医生相当。所有实验都是在包括临床笔记和来自美国一家癌症中心的可用临床试验在内的现实世界的 EHR 上进行的。

一、引言

本研究本研究聚焦于临床试验匹配问题，即识别患者可能符合资格参与的临床试验。传统上，这一任务需要人工详细核对患者的电子健康记录（EHRs）与临床试验的严格纳入和排除标准，既耗时又难以扩大规模，导致许多患者可能错过潜在的治疗选择。随着大型语言模型（LLMs）的快速发展，自动化患者-试验匹配成为可能。然而，当前的方法主要基于受限的、往往是合成数据集，未能充分反映真实医疗数据的复杂性。本研究旨在填补这一空白，提出PRISM模型，用于基于语义的临床试验匹配。

二、研究方法

PRISM模型利用大型语言模型对患者的电子健康记录进行深度解读，并自动与临床试验的纳入和排除标准进行匹配。该模型的设计考虑了医疗数据的复杂性和多样性，以及临床试验的严格性。通过端到端的大规模实证研究，PRISM模型在真实世界的医疗数据上进行了验证。

三、主要贡献

自动化与效率提升：PRISM模型显著提高了临床试验匹配的自动化程度，减少了人工核对的需求，从而提高了工作效率。
准确性与可靠性：通过深度学习和语义分析技术，PRISM模型能够更准确地理解患者记录和临床试验标准，提高了匹配的准确性和可靠性。
大规模实证验证：本研究首次在真实世界的医疗数据集上进行了大规模实证验证，证明了PRISM模型的有效性和实用性。
扩展性与灵活性：PRISM模型具有良好的扩展性和灵活性，可以适应不同来源、不同格式的医疗数据和临床试验标准。

四、实验结果

本研究在多个真实世界的医疗数据集上进行了实验验证，结果表明PRISM模型在临床试验匹配任务上取得了显著优于传统方法的性能。具体而言，PRISM模型在准确率、召回率和F1分数等关键指标上均表现出色。

五、讨论与展望

尽管PRISM模型在临床试验匹配任务上取得了显著成果，但仍存在一些挑战和限制。例如，医疗数据的隐私和安全问题、不同医疗系统之间的数据兼容性问题等。未来研究可以进一步探索如何克服这些挑战，提高PRISM模型的实用性和泛化能力。

此外，随着人工智能技术的不断发展，大型语言模型在医疗领域的应用前景广阔。未来研究可以进一步探索PRISM模型在患者诊断、治疗方案推荐、药物研发等方面的应用潜力。

六、结论

本研究提出的PRISM模型是一种基于大型语言模型进行语义临床试验匹配的创新方法。通过深度解读患者电子健康记录并自动与临床试验标准匹配，PRISM模型能够显著提高临床试验匹配的自动化程度、准确性和可靠性。本研究在真实世界的医疗数据集上进行了大规模实证验证，证明了PRISM模型的有效性和实用性。未来研究可以进一步探索PRISM模型在医疗领域的广泛应用前景。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.