大型语言模型综述：从通用领域到医疗应用——数据集、方法与评估

大型语言模型（LLM）在众多自然语言处理任务中都取得了令人瞩目的成就。近年来，融合领域专业知识的医学 LLM 在医学咨询和诊断领域展现出卓越的性能，能够流畅地模拟医患对话，并提供专业的医疗建议。目前，大多数医学 LLM 都是基于开源的通用 LLM 进行持续训练而开发的，这不仅相较于从零开始训练 LLM 大大降低了计算资源的需求，而且与依赖 API 的解决方案相比，还能更好地保护患者隐私。本文系统回顾了如何基于通用 LLM 构建医学 LLM，涵盖以下几个方面：（a）如何获取训练语料库并构建定制化的医学训练集；（b）如何选择合适的训练范式；（c）如何选择合适的评估基准；（d）现有挑战以及未来研究方向。本综述将为开发面向医学教育、诊断规划和临床辅助等不同应用场景的 LLM 提供指导。

一、论文研究目标及实际意义

研究目标：本论文旨在系统性地探索基于通用大语言模型（LLMs）训练医疗领域大语言模型（医疗LLMs）的方法，包括数据获取与处理、训练范式选择、评估基准等，旨在为各种医疗应用，如医学教育、诊断规划、临床助手等，提供定制化医疗LLMs的开发指导。

实际问题：医疗领域的知识复杂且专业性强，直接应用通用LLMs难以满足医疗场景的精确性和安全性要求。因此，需要研究如何将通用LLMs的知识迁移到医疗领域，并开发出高效、准确的医疗LLMs。

问题的重要性：随着医疗信息化和人工智能技术的发展，医疗LLMs能够在医疗咨询、辅助诊断等方面发挥重要作用，提高医疗服务的效率和质量，对医疗产业发展具有重要意义。

二、新思路、方法及模型

新思路：论文提出了通过继续训练（Continued Pretraining, CP）、指令微调（Instruction Fine-tuning, IFT）和人类对齐（Human Alignment, HA）三个阶段的组合，将通用LLMs转化为医疗LLMs的方法。

关键方法：

继续训练：利用医疗领域的无结构数据，增强模型对医疗知识、术语和语言风格的理解。
指令微调：使用医疗指令数据，使模型能够掌握医疗领域的对话和指令遵循能力。
人类对齐：通过人类偏好数据训练，使模型输出的响应更符合医生的专业性和患者的友好性。

特点与优势：与之前方法相比，本论文提出的方法更加系统化和精细化，通过分阶段训练，逐步增强模型在医疗领域的能力，同时降低了对计算资源的需求。

三、实验设计与验证

实验设计：

数据集：论文使用了多种来源的医疗数据集，包括公开数据集、专业医疗组织语料库和合成数据等，经过数据清洗、格式化、增强等处理，形成标准化的训练集。
训练范式：根据数据集规模和计算资源，论文提出了IFT、CP-IFT、IFT-HA和CP-IFT-HA四种训练范式，以适应不同场景的需求。
评估基准：论文从机器和人的视角，对医疗LLMs进行了全面的评估，包括自然语言理解、生成任务的基准测试和人类评价等。

实验结果：论文列举了多种医疗LLMs的实验结果，如准确度、BLEU分数、ROUGE分数等，显示所提出的方法能够有效提高模型在医疗领域的性能。

科学假设验证：实验数据及结果很好地支持了通过继续训练、指令微调和人类对齐能够显著提升医疗LLMs性能的科学假设。

四、论文贡献及业界影响

论文贡献：

系统性方法：首次系统性地探索了从通用LLMs到医疗LLMs的训练方法。
详细指南：为医疗健康组织提供了训练定制化医疗LLMs的详细指南和教程。
分类与标准化：对训练数据集来源、处理方法和训练范式进行了分类和标准化，为医疗LLMs的开发提供了参考。

业界影响：

技术推动：论文提出的方法和技术将推动医疗LLMs的发展，提高医疗服务的智能化水平。
商业机会：医疗LLMs在医疗咨询、辅助诊断等领域具有广阔的应用前景，为相关产业带来商业机会。

五、未来探索与挑战

未来探索：

数据隐私保护：研究如何在保护患者隐私的同时，充分利用医疗数据进行模型训练。
个性化服务：探索如何使医疗LLMs能够根据患者的实时信息提供个性化服务。
统一评估平台：建立面向医疗LLMs的统一评估平台，促进该领域的发展。

挑战：

数据获取与处理：医疗数据的获取和处理难度大，需要解决隐私保护、数据清洗等问题。
模型泛化能力：提高医疗LLMs的泛化能力，使其能够适应不同医疗场景的需求。

六、论文不足与存疑

不足：

实验细节不足：论文在介绍实验设计和结果时，未给出详细的实验参数和配置，使得实验结果的可复现性受到影响。
理论深度不够：论文在理论分析和模型设计上，尚未达到足够的深度和广度，需要进一步研究和探索。

存疑：

模型性能的真实性：由于实验细节不足，论文中报告的模型性能数据可能存在一定误差，需要更多实验验证。
人类对齐的有效性：人类对齐阶段的效果受到人类偏好数据质量和数量的限制，其有效性需要进一步验证。

七、非技术背景读者的启示与补充知识

启示：

了解AI技术在医疗领域的应用潜力：通过阅读论文，可以了解到AI技术在医疗咨询、辅助诊断等方面的巨大应用潜力，对医疗产业的发展具有重要意义。
关注数据隐私与安全问题：医疗数据具有高度的敏感性和隐私性，因此在开发和应用医疗LLMs时，需要特别关注数据隐私与安全问题。

补充知识：

大语言模型（LLMs）：一种基于深度学习技术的自然语言处理模型，能够处理各种自然语言任务，如文本生成、问答等。
数据隐私保护技术：包括差分隐私、联邦学习等技术，用于在保护数据隐私的同时，实现数据的有效利用和分析。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

医院信息化之一体化、集成化辨析

医院信息化建设是提升医疗服务质量和管理效率的重要途径。在此过程中，一体化和集成化是两种主要的实现路径。本文将详细探讨一体化和集成化的定义、优势、不足、适用范围，并提供实际的建议。

一体化

定义

一体化是指站在医院信息化总体的视角，进行一套核心数据、一致标准、统一底层的架构设计与实现，并在此基础上进行统一的应用开发、运维管理，天然的实现系统的互联互通与协调一致。

优势

1、数据模型一致，有效提升了生产环节的数据一致性与高质量，为数据的一次、二次利用奠定了很好的基础。

2、开发框架及工具的一致，有效降低了开发与维护难度，提高了对业务需求相应能力。

3、天然实现了系统互操作，应用一体化程度高。

不足

1、对系统的整体设计能力要求较高，需要具备对全院业务具备整体理解、分析、抽象能力；

2、对技术选型能力需要较高，一旦某个技术组件退化或不可用，会对系统产生较大的系统风险；

3、对系统领域划分及抽象能力有较高要求，一旦某个业务领域模型发生重大变化，会对系统产生系统性风险；

4、对研发要求较高，需要所有的供应商均采用此设计框架及工具链进行开发，或医院自行基于该框架开发，在项目管理、队伍建设、资金投入上均存在极高要求；

5、系统的运维风险较高，一旦某个局部模块出现故障，可能会拖累整个系统，与当前分拆、隔离的行业趋势不一致。

适用范围

1、更适用于新建医院或信息化基础薄弱、业务流程相对简单的医院，可以从零开始构建一体化系统。

2、对于某些专业需求非常特殊、需要高度定制化的科室或业务，可以考虑采用一体化模式进行开发。

集成化

定义

一体化是指站在医院信息化总体的视角，不对单个系统的数据结构、技术架构、开发工具选型进行约定，而是基于统一的业务模型与业务流程，通过接口或者集成引擎来进行业务的互联互通，实现业务流程的一体化。

优势

1、降低了单一厂商对医院进行绑定的风险，医院可以在各业务领域选择优秀的产品，提高业务整体的数字化水平。

2、系统灵活性更强，在单个业务系统发生快速变化时，可以对单个系统进行升级替换，对其他部分没有影响。

3、通过集成架构，可以将风险控制在各业务系统范围，降低故障的影响范围。

4、供应商、医院可以选择擅长的开发工具链，有效降低开发运维成本。人员队伍建设成本较低。

不足

1、需要具备全局业务流程梳理及集成规范制定的能力；

2、需要具备对众多厂商能力的鉴别、管理能力；

3、集成平台容易成为单点故障，需要重点加固；

4、各系统间的数据模型、数据标准不一致，需要通过数据标准统一、数据治理、数据集成等手段来实现数据的一体化。

适用范围

1、更适用于信息化建设已有一定基础、业务流程较为复杂、各部门需求差异较大的医院。

2、可以逐步替换老旧系统，实现平滑过渡，降低整体风险。

建议

一体化和集成化都是医院信息化建设的重要路径，没有绝对的优劣之分。一体化是行业的一个长远理想，但从行业的发展及当下来看，一体化对于国内的绝大部分医院来说，不是立刻就能够实现的。一方面是医院的信息化是沿着集成化的路线不断发展起来的，医院很难在不影响现有业务运行的短期内将系统推翻重建成一体化系统。另一方面，市场上并不存在对医院业务（HIS+临床+医技+基本经济运营管理）进行一体化实现的产品。当然，随着云计算、微服务等技术的成熟，一体化架构的灵活性和可扩展性将得到提升，一体化模式将更具吸引力。数据中台、业务中台等概念的兴起，也为实现一体化架构提供了新的思路和技术支撑。

但对于现阶段的医院来说，“整体集成化、局部一体化”是更加实际、更加可行的选择。其主要优势如下：

优势互补：兼顾了两种模式的优势，既可以保持整体架构的灵活性和可扩展性，又可以针对特定领域实现深度整合和数据共享。

降低风险：逐步推进，可以有效控制风险，避免一次性投入过大或对现有业务造成过大冲击。

符合趋势：符合当前医院信息化发展趋势，也是未来一段时间内国内医院信息化建设的主流模式。

未来，一体化和集成化两种模式将长期共存、相互促进，医院可以根据自身实际情况选择合适的建设路径，并制定科学合理的实施方案，才能最终实现信息化建设的目标，提升医疗服务水平和管理效率。

附录

1、90年代，江门安易与江门中心医院合作开发的系统，是一套一体化的医院信息化系统，曾经在业内引领了一段风潮。但随着医院的业务管理精细化及信息化应用的水平提升，该系统无法跟上业务的需求，导致最终退出市场。同样，美国VA开发的系统，曾经覆盖了美军的所有医疗机构，但近年来随着系统逐渐不适应发展要求，也在逐步采用商业化的软件进行集成替换现有软件。香港医管局开发的医院系统，曾在2000-2010对国内医院系统一体化起到了一定示范引领，但近年来其已无法满足医院的发展要求，甚至成为医院发展障碍，因此也在行业内消声觅迹。

2、而在更成熟的企业信息化领域来看，SAP虽然是最大的ERP厂商，其也围绕企业的运营管理领域来做，企业的生产制造、营销管理、人力资源、BPM等基本都是第三方厂商来做，基本上也属于局部一体、整体集成的模式。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

CliBench：多角度评估大型语言模型在诊断、手术、检验医嘱和处方等临床决策中的表现

人工智能（AI），特别是大型语言模型（LLM）与临床诊断的结合，为提高医疗效率和可及性带来了巨大潜力。虽然 LLMs 在医疗领域已展现出初步成效，但其在临床诊断中的应用，尤其是在需要制定个性化、复杂诊疗方案的实际场景下，仍有待深入研究。目前，针对 LLMs 在该领域的评估多局限于特定疾病或专科，且采用简化的诊断任务。为了解决这一问题，我们开发了 CLIBENCH，这是一个基于 MIMIC IV 数据集构建的全新基准测试平台，旨在全面、真实地评估 LLMs 在临床诊断中的能力。 CLIBENCH 不仅涵盖了跨多学科、多病种的诊断案例，还纳入了治疗方案确定、检验医嘱开具和药物处方等具有重要临床意义的任务。此外，CLIBENCH 采用结构化输出本体，支持精准、多粒度的评估，能够深入分析 LLMs 在不同粒度临床任务中的表现。我们对主流 LLMs 进行了零样本评估，以测试其临床决策能力。初步结果揭示了当前 LLMs 在临床应用中的优势和不足，为未来开发基于 LLMs 的医疗保健系统提供了宝贵 insights。

一、研究目标及实际意义

研究目标

本文的研究目标是通过构建一个名为CliBench的基准数据集，对大型语言模型（LLMs）在临床决策中的能力进行全面、现实的评估。具体来说，CliBench不仅覆盖了从多个医疗案例中诊断出疾病的能力，还涵盖了治疗程序识别、实验室测试订单制定和药物处方等具有临床重要性的任务。

解决的实际问题

现有研究中LLMs在临床决策领域的应用相对有限，尤其是在真实世界的临床实践中。CliBench旨在弥补这一不足，提供一个综合性的评估框架，以揭示LLMs在临床环境中的潜力与局限性。

问题的新颖性及产业意义

这是一个新颖的问题，因为虽然LLMs在医疗领域已有应用，但其在临床决策中的全面评估仍属缺乏。随着人工智能技术在医疗领域的深入应用，一个能够准确评估LLMs在临床决策中能力的基准数据集对于产业发展具有重要意义，它不仅有助于推动LLMs在临床决策中的应用，还能促进相关技术的创新与发展。

二、研究思路、方法与模型

新的思路与方法

本文提出CliBench基准数据集，该数据集基于MIMIC IV数据集精心构建，涵盖了来自多个医疗案例的广泛病例。CliBench不仅考虑了诊断任务，还融入了治疗程序识别、实验室测试订单制定和药物处方等临床决策任务，并通过结构化的输出本体论支持精确和多粒度的评估。

解决方案的关键

CliBench的关键在于其全面性和现实性。它提供了一个从多个维度评估LLMs在临床决策中能力的框架，并通过结构化的输出本体论支持精确评估。此外，CliBench还考虑了临床决策中的多粒度需求，使得评估结果更具参考价值。

与之前方法的比较

与之前的方法相比，CliBench具有更广泛的覆盖范围和更现实的评估场景。之前的研究往往集中在特定的疾病或专业领域，并且使用简化的诊断任务进行评估。CliBench则涵盖了来自多个医疗案例的广泛病例，并融入了多种临床决策任务，使得评估结果更具代表性和实用性。

三、实验设计与结果分析

实验设计

实验采用了零次学习（zero-shot）配置，对多种主流LLMs进行了评估。实验涵盖了诊断决策、治疗程序识别、实验室测试订单制定和药物处方等多个临床决策任务。通过对比不同模型在各级别代码匹配上的性能，评估了LLMs在临床决策中的能力。

实验数据

实验数据来自CliBench基准数据集，涵盖了大约1000个测试案例。每个测试案例都需要模型预测多个诊断、治疗程序、实验室测试和药物处方。实验数据经过平衡采样，以确保不同输出空间和不同服务/护理单位的广泛覆盖。

实验结果

实验结果表明，当前LLMs在临床决策中的能力有限。尽管一些模型在某些任务上表现出较好的性能，但整体而言，LLMs在处理复杂临床决策时仍面临挑战。特别是在诊断决策任务中，LLMs的性能普遍较低，表明其在理解和推理复杂医疗信息方面仍有待提高。

四、论文贡献及产业影响

论文贡献

CliBench基准数据集的提出是本文的主要贡献之一。CliBench为全面评估LLMs在临床决策中的能力提供了一个综合性的框架，并通过结构化的输出本体论支持精确和多粒度的评估。此外，本文通过实验揭示了当前LLMs在临床决策中的潜力与局限性，为未来的研究提供了有价值的参考。

产业影响

CliBench的提出将对AI在医疗领域的应用产生深远影响。首先，CliBench为开发更高效、更准确的临床决策支持系统提供了重要的评估工具。其次，CliBench的提出将促进LLMs在临床决策中的研究与应用，推动相关技术的创新与发展。最后，CliBench还将为医疗产业带来新的商业机会，如基于LLMs的临床决策支持系统、个性化治疗方案推荐等。

五、未来研究方向与挑战

未来研究方向

未来的研究可以从以下几个方面展开：

改进LLMs的临床决策能力：通过引入更多医疗领域知识、优化模型结构等方法，提高LLMs在临床决策中的性能。
拓展CliBench的覆盖范围：将CliBench扩展到更多医疗领域和场景，如急诊、重症监护等，以更全面地评估LLMs在临床决策中的能力。
探索LLMs与其他技术的结合：如与知识图谱、自然语言处理技术等结合，以提高LLMs在临床决策中的准确性和可靠性。

面临的挑战

未来的研究将面临以下几个挑战：

数据获取与标注：获取高质量的医疗数据并进行标注是一项艰巨的任务，需要投入大量的人力和物力。
模型训练与优化：训练和优化适用于临床决策的LLMs需要强大的计算资源和专业知识。
伦理与隐私问题：在医疗领域应用AI技术需要考虑伦理和隐私问题，如数据保护、患者权益等。

六、论文不足与进一步验证

论文不足

虽然CliBench为评估LLMs在临床决策中的能力提供了一个综合性的框架，但仍存在一些不足之处：

数据覆盖范围有限：CliBench的数据集主要基于MIMIC IV数据集构建，可能无法涵盖所有医疗领域和场景。
评估方法单一：本文仅采用了零次学习配置对LLMs进行评估，可能无法全面反映模型在实际应用中的性能。

进一步验证与存疑

未来的研究可以通过以下方法进行进一步验证和存疑：

引入更多数据集：使用来自不同医疗领域和场景的数据集对LLMs进行评估，以验证CliBench的泛化能力。
采用多种评估方法：结合有监督学习、强化学习等方法对LLMs进行评估，以更全面地反映模型在实际应用中的性能。
开展实际应用测试：将基于CliBench训练的LLMs应用于实际临床环境中进行测试，以验证其在真实世界中的可行性和效果。

七、对非技术背景读者的启发与建议

启发

对于非技术背景的读者来说，可以从本文中获得以下几点启发：

关注AI技术在医疗领域的应用：随着人工智能技术的不断发展，其在医疗领域的应用越来越广泛。了解AI技术在医疗领域的应用现状和未来趋势对于把握产业发展方向具有重要意义。
认识LLMs在临床决策中的潜力与局限性：LLMs在临床决策中具有巨大潜力，但仍面临诸多挑战。了解LLMs在临床决策中的实际应用情况有助于更好地把握其优缺点和发展方向。
关注伦理和隐私问题：在医疗领域应用AI技术需要考虑伦理和隐私问题。了解并遵守相关法律法规和伦理规范是确保技术应用合法合规的关键。

建议补充了解的背景知识

为了更好地理解本文内容，建议非技术背景的读者补充了解以下背景知识：

大型语言模型（LLMs）：了解LLMs的基本原理、应用场景和发展趋势有助于更好地理解其在临床决策中的作用和价值。
医疗信息化与人工智能技术：了解医疗信息化与人工智能技术的发展现状和未来趋势有助于更全面地把握其在医疗领域的应用前景和挑战。
伦理与隐私保护：了解医疗领域中的伦理规范和隐私保护政策有助于更好地理解在医疗领域应用AI技术时需要考虑的伦理和隐私问题。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.