Digital Health Insider

语言模型可作为可校准的决策者：数据集构建及在医疗分诊领域的应用

在复杂的决策过程中，由于不存在绝对正确的答案，专家之间持有不同意见的情况十分普遍。个人的决策往往受到多种属性的影响。本研究引入了一个全新的医疗分诊决策数据集，该数据集使用一组决策者属性（DMA）进行标注，包含 62 个涵盖六种不同 DMA 的场景，其中包括公平、道德价值等伦理原则。研究团队还提出了一种利用 DMA 进行人类一致性决策的软件框架，旨在为构建更安全、更值得信赖的人工智能系统提供保障。具体而言，研究展示了大型语言模型（LLMs）如何作为符合伦理的决策者，以及如何利用零样本提示技术使其决策与不同的 DMA 保持一致。实验部分评估了 Falcon、Mistral 和 Llama 2 等不同规模和训练技术的开源模型。此外，研究还提出了一种全新的加权自洽性方法，用以提升整体量化性能。本研究为未来将 LLMs 发展成为可校准的决策者提供了新的研究方向，并将公开发布数据集和开源软件：https://github. com/ITM-Kitware/llm-alignable-dm。

一、研究目标及实际问题

研究目标：
论文的研究目标在于引入一种新颖的决策数据集，用于医疗分流决策领域，并通过使用大型语言模型（LLMs）作为可对齐的决策者，探索如何将这些模型与不同的决策者属性（DMAs）对齐，以适应不同的伦理原则，如公平性和道德应得性。

实际问题：
在复杂的医疗分流决策场景中，专家之间往往存在不同的意见，因为可能没有一个绝对的正确答案。这些决策可能受到不同属性的影响，这些属性可以用来描述个体的决策特征。论文尝试解决的问题是如何利用LLMs来捕捉并模拟人类决策者的这些属性，使得AI决策更加符合人类的价值观和期望。

问题的重要性：
这个问题对于医疗信息化和AI在医疗领域的应用具有重要意义。随着医疗资源的日益紧张，如何有效利用这些资源，为患者提供最优的医疗服务，成为了亟待解决的问题。通过使AI决策与人类决策者的价值观对齐，可以更好地提高医疗服务的效率和公平性。

二、新思路、方法及模型

新思路：
论文提出了一个新颖的数据集，用于医疗分流决策，该数据集包含了一系列场景，每个场景都标记了多个DMAs。通过这一数据集，论文探索了如何使LLMs作为可对齐的决策者，服务于医疗分流决策领域。

方法：
论文采用了一种零次学习提示策略，并结合加权自洽性（weighted self-consistency）的方法，将LLMs的决策与不同的DMAs对齐。具体来说，通过在输入提示中包含DMA的定义和描述，引导LLMs根据特定的属性进行决策。加权自洽性则通过多次采样模型输出，并根据目标属性值进行加权投票，以确定最终答案。

关键与优势：

动态对齐：与之前的强化学习从人类反馈（RLHF）的对齐方法不同，本文的对齐是动态的，可以根据不同个体的偏好和价值观进行调整。
多属性决策：通过引入DMAs的概念，论文使得LLMs能够在多个属性之间进行权衡和选择，更符合实际决策场景。
零次学习：无需对模型进行微调或重训练，大大降低了成本和时间。

三、实验设计与结果

实验设计：
论文进行了一系列实验，以验证所提出的对齐方法的有效性。实验主要围绕三种模型配置展开：未对齐模型、使用零次学习提示的对齐模型、以及结合加权自洽性的对齐模型。实验数据基于论文中提出的医疗分流决策数据集，涵盖了六种不同的DMAs。

实验数据与结果：
实验结果表明，通过结合零次学习提示和加权自洽性，LLMs的决策可以更好地与不同的DMAs对齐。具体来说，Llama2-13B模型在结合了加权自洽性后，对齐准确率显著提高。此外，实验还发现较大的模型通常更容易对齐，且通过RLHF训练的模型在对齐方面表现更好。

科学假设支持：
实验结果很好地支持了论文提出的科学假设，即通过使用特定的提示和加权自洽性策略，可以将LLMs的决策与不同的DMAs对齐，使得AI决策更加符合人类的价值观和期望。

四、论文贡献与影响

论文贡献：

数据集：引入了一个新颖的医疗分流决策数据集，该数据集包含多种场景和DMAs，为相关研究提供了宝贵的资源。
方法：提出了一种新的零次学习提示策略，结合加权自洽性，使得LLMs可以作为可对齐的决策者，服务于医疗分流决策领域。
软件框架：开发了一个可扩展的开源软件框架，为相关研究和应用提供了便利。

产业影响：

医疗信息化：通过使AI决策与人类决策者的价值观对齐，可以提高医疗服务的效率和公平性，推动医疗信息化的发展。
AI伦理：该研究为AI伦理提供了新的思路和方法，有助于构建更加安全和可信赖的AI系统。

应用场景与商业机会：

智能医疗分流系统：基于论文提出的方法，可以开发智能医疗分流系统，辅助医生进行更高效的医疗分流决策。
AI决策支持系统：该方法还可以应用于其他需要决策支持的领域，如金融、法律等，为AI决策提供更加可靠和可信的基础。

五、未来探索与挑战

未来探索：

多属性对齐：研究如何将LLMs同时与多个DMAs对齐，以处理更复杂的决策场景。
动态价值观：探索如何根据具体情境的变化，动态调整LLMs的价值观，使其更加符合实际需求。
模型可解释性：提高模型决策的可解释性，增强用户对AI决策的信任和理解。

挑战：

数据稀缺性：医疗分流决策领域的标注数据相对稀缺，如何获取更多高质量的数据是一个挑战。
模型泛化能力：如何使模型在不同的数据集和场景下都具有较好的泛化能力，是一个值得进一步研究的问题。

六、不足与存疑

不足：

模型偏见：LLMs在预训练过程中可能继承了数据中的偏见，如何消除这些偏见是一个需要解决的问题。
对齐标准：如何定义和量化对齐的标准仍然是一个开放的问题，需要进一步的研究和探索。

存疑：

伦理边界：在将AI决策与人类价值观对齐的过程中，如何确保AI决策不违反伦理边界是一个值得进一步探讨的问题。
多属性权衡：当多个DMAs之间存在冲突时，如何权衡和选择仍然是一个需要深入研究的领域。

七、非技术背景读者的启示与建议

对于非技术背景的读者来说，可以从以下几个方面获取启示：

了解AI在医疗领域的应用：通过学习本文，可以了解AI在医疗分流决策领域的应用和潜力，为未来可能的商业机会提供参考。
关注AI伦理问题：本文的研究强调了AI伦理的重要性，作为非技术背景的读者，也应该关注这一问题，思考如何确保AI技术的安全、可靠和可信赖。
补充相关知识：为了更好地理解本文的内容，建议读者补充了解一些相关的基础知识，如大型语言模型、零次学习、加权自洽性等概念。

作为工程师，你可以关注LLMs在医疗信息化中的应用，以及如何利用相关技术和方法提高AI决策的效率和可靠性。同时，也可以思考如何结合具体的业务需求，将本文中的研究成果应用于实际项目中。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MedExQA：包含多种解释的医学问答基准测试集

本文介绍了一个名为“MedExQA”的全新医学问答基准测试集，旨在通过解释生成来评估大型语言模型（LLMs）对医学知识的理解能力。MedExQA 涵盖五个当前数据集中代表性不足的医学专业，并为每个问题提供多个参考答案和解释，弥补了现有医学问答基准测试在全面评估 LLMs 生成细微医学解释能力方面的不足。本研究强调了医学领域 LLMs 可解释性的重要性，并提出了一种超越分类准确率的模型评估方法。研究还揭示了当前 LLMs（包括 GPT4）在言语语言病理学等特定医学领域理解不足的问题。实验结果表明，采用多解释的生成式评估方法与人工评估结果更为一致，为未来开发更强大的 LLMs 自动理解评估方法提供了可能。此外，为了促进开源医学 LLMs 的多样化发展（目前主要基于 Llama2 模型），本研究还提出了一种基于 Phi-2（2.7B）的新型医学模型 MedPhi-2。该模型在解释生成方面优于基于 Llama2-70B 的医学 LLMs，展现出其在资源受限的医学领域的应用潜力。研究团队计划公开 MedExQA 数据集和已训练的 MedPhi-2 模型。

一、研究目标与问题背景

研究目标：论文的研究目标在于构建一个名为MedExQA的新型医疗问答基准，通过提供多个解释来评估大型语言模型（LLMs）对医学知识的理解程度。

实际问题：当前医疗问答基准主要关注多选题（MCQ）的准确性评估，缺乏对模型生成详细医疗解释能力的全面评估。此外，现有基准在某些医疗专业领域（如语音语言病理学）的覆盖范围不足。

问题意义：通过评估模型生成解释的能力，可以更好地理解模型的限制和优势，对于临床决策支持系统、患者教育和在线医疗咨询服务具有重要意义。

二、新思路、方法与模型

新思路：

多重解释基准：为每个问答对提供两组不同的解释，以更全面地评估模型解释能力。
跨五个专业领域的数据集：涵盖生物医学工程、临床实验室科学、临床心理学、职业治疗和语音语言病理学五个专业领域，以扩展知识覆盖范围。

关键模型与方法：

MedPhi-2模型：基于Phi-2模型训练的医疗领域小模型，通过医疗领域文本预训练和指令调优数据集进行训练，以提升生成解释的能力。

特点与优势：

多重解释评估：相比仅依赖分类准确性的评估方法，多重解释评估更能反映模型对医学知识的理解深度。
跨领域数据集：通过覆盖不同医疗专业领域，为模型提供更为全面的医学知识输入。
资源受限场景的有效模型：MedPhi-2模型在资源受限的医疗领域中表现出色，证明在特定场景下小模型也能实现高效性能。

三、实验设计与结果

实验设计：

基线模型：包括18个开源基线模型（从2.7B到70B）、OpenAI GPT模型以及MedPhi-2模型。
评估指标：分类准确率、生成的解释性能以及人工评估。

关键数据与结果：

分类准确率：大型模型通常表现出更高的准确率，但MedPhi-2在生成解释方面表现优异。
解释生成性能：通过BLEU、ROUGE-L、METEOR和BERTScore等指标评估生成的解释质量，MedPhi-2在所有医疗LLMs中表现最佳。
人工评估：MedPhi-2在多个专业领域中均获得高分，特别是在语音语言病理学领域表现突出。

结果支持假设：实验结果表明，多重解释评估方法能更好地反映模型对医学知识的理解程度，MedPhi-2模型通过医疗领域文本预训练和指令调优数据集的训练，在生成医学解释方面表现出色。

四、贡献与影响

论文贡献：

MedExQA基准：为医疗领域问答提供了首个包含多重解释的新型基准，有助于全面评估LLMs的医学知识理解能力。
MedPhi-2模型：提出了一个基于Phi-2的小模型，通过医疗领域文本预训练和指令调优数据集的训练，在生成医学解释方面表现出色。
开源资源：将发布基准数据集、模型权重和代码，促进医疗大型语言建模的研究。

业界影响：

技术进步：促进医疗问答系统、临床决策支持系统等领域的技术进步。
商业机会：为在线医疗咨询、患者教育等商业服务提供技术支持。

应用场景：

在线医疗咨询：通过MedExQA基准评估的模型可为患者提供在线医疗咨询服务，并生成详细的解释以增强患者信任。
临床决策支持：模型可为医生提供临床决策支持，通过解释辅助医生做出更准确的诊断和治疗决策。

工程师关注点：

模型训练与优化：关注如何通过医疗领域文本预训练和指令调优数据集提升模型性能。
应用部署与集成：探索如何将经过训练的模型集成到现有医疗系统中，提供实际服务。

五、未来探索与挑战

未来探索方向：

跨领域模型训练：进一步探索如何训练跨多个医疗专业领域的通用模型。
多模态数据融合：结合文本、图像等多模态数据提升模型性能。
实时性与效率优化：针对在线医疗咨询等实时应用场景，优化模型响应时间和计算效率。

挑战与投资机会：

数据隐私与伦理：在利用医疗数据进行模型训练时，需关注数据隐私和伦理问题，为相关技术和解决方案提供市场需求。
模型可解释性与信任度：提升模型的可解释性和生成的解释质量，增强用户对模型的信任度，为在线医疗咨询等商业服务提供重要支持。

六、不足与进一步验证

不足之处：

基准数据集规模：当前MedExQA基准数据集规模相对较小，未来可扩展数据规模以覆盖更多医疗专业领域和问题类型。
模型泛化能力：虽然MedPhi-2模型在生成医学解释方面表现出色，但其泛化能力仍需进一步验证。

进一步验证：

更大规模的数据集验证：在更大规模的数据集上验证MedPhi-2模型的性能。
真实世界场景应用验证：将MedPhi-2模型部署到真实世界的医疗场景中，验证其在实际应用中的效果和可靠性。

七、非技术背景读者的启发与知识补充

启发：

跨领域知识融合的重要性：通过医疗问答基准的构建和评估，可以看到跨领域知识融合在提升模型性能方面的重要作用。
数据质量对模型性能的影响：数据集的规模、质量和多样性对模型性能具有重要影响，未来在利用数据进行模型训练时需关注数据质量。

知识补充：

大型语言模型（LLMs）：基于深度学习的自然语言处理模型，能够处理和理解自然语言文本。
BLEU、ROUGE、METEOR和BERTScore：常用的自然语言生成评估指标，用于评估生成的文本与参考文本之间的相似度。
医疗问答系统：能够回答用户关于医疗问题的系统，广泛应用于在线医疗咨询、患者教育等领域。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MedREQAL：利用问答形式探究大型语言模型对医学知识的掌握程度

近年来，大型语言模型（LLMs）在接受大型文本语料库预训练的过程中，展现出惊人的知识编码能力。这些模型能够利用习得的知识，出色地完成问答（QA）等下游任务，即使面对涉及健康等复杂领域的问题也不在话下。 LLMs 在未来有望极大助力临床工作，因此，深入了解其编码医学知识的质量以及知识召回能力至关重要。本研究旨在评估 LLMs 对医学知识的理解和应用能力。为此，我们创建了一个名为“MedREQAL”的新数据集，其中包含从系统评价中提取的问答对。系统评价是一种综合分析特定医学问题现有证据，并给出循证答案的研究方法。我们使用 MedREQAL 数据集对 GPT、Mixtral 等六种 LLMs 模型进行了测试，分析了它们的分类和答案生成性能。实验结果表明，LLMs 在处理这类生物医学 QA 任务时仍面临挑战。

1. 论文研究目标及实际意义

研究目标

论文的研究目标是考察大型语言模型（LLMs）在医学知识回忆方面的能力。具体来说，是通过构建一个新的数据集（MedREQAL），基于系统综述生成问题-答案对，以测试LLMs在医学领域的知识编码和回忆性能。

解决的实际问题

随着LLMs在各个领域的应用越来越广泛，它们在医疗健康领域的潜力也逐渐受到重视。然而，LLMs在医疗健康领域的应用还面临许多挑战，其中之一就是如何保证模型编码的医学知识的准确性和完整性。因此，了解LLMs在医学知识回忆方面的性能对于未来其在医疗健康领域的应用至关重要。

问题的重要性

医疗健康领域的知识高度专业化，对准确性和完整性有极高要求。如果LLMs能够在这一领域准确回忆和应用医学知识，那么它们就有可能帮助医生更快速、更准确地诊断疾病、制定治疗方案，从而提高医疗效率和质量。此外，这还可能促进医学知识的普及和共享，使更多人受益。

2. 论文提出的新思路、方法及关键解决方案

新思路与方法

论文提出了一个全新的数据集MedREQAL，该数据集来源于系统综述，包含了大量的医学问题-答案对。系统综述是对特定医学问题进行全面、系统、客观的综述研究，因此其结论具有很高的权威性和可信度。基于这样的数据集，论文能够更准确地评估LLMs在医学知识回忆方面的性能。

关键解决方案

论文的关键解决方案在于利用系统综述作为数据源，生成高质量的问题-答案对。这种方法保证了问题的专业性和答案的权威性，从而提高了实验的可靠性和准确性。此外，论文还使用了多种LLMs进行实验，包括通用的LLMs和生物医学领域的LLMs，以便更全面地评估不同类型模型在医学知识回忆方面的性能。

与之前方法的比较

与之前的方法相比，本论文提出的方法具有更高的专业性和可信度。之前的方法通常使用普通文本或医学文献作为数据源，虽然也能在一定程度上评估LLMs的性能，但由于数据源的权威性和可信度较低，因此实验结果可能存在较大的误差。而本论文使用系统综述作为数据源，保证了问题的专业性和答案的权威性，从而提高了实验的可靠性和准确性。

3. 实验设计与结果分析

实验设计

实验采用了零次学习（zero-shot）的设置，即只向模型提供问题而不提供任何额外的上下文或训练数据。这样做的目的是为了直接评估模型在医学知识回忆方面的性能，而不是依赖于任何外部的训练数据。实验共测试了六种不同的LLMs，包括三种通用的LLMs和三种生物医学领域的LLMs。

实验数据与结果

实验结果表明，在分类任务上，Mixtral模型表现最好，而在生成任务上，所有模型的表现都相对较好。具体来说，Mixtral在分类任务上的准确率和F1分数均超过了其他模型；而在生成任务上，所有模型都能够生成与真实答案较为接近的回答。然而，模型在区分“证据不足”（NEI）和“被反驳”（REFUTED）这两个类别时表现较差，这可能是因为这两个类别都包含“负面”的表述方式，导致模型难以准确区分。

实验结果的科学假设支持

实验结果在一定程度上支持了科学假设，即LLMs能够在一定程度上回忆和应用医学知识。具体来说，Mixtral模型在分类任务上的优秀表现表明，LLMs在经过大量医学文本的预训练后，确实能够学习到一些医学知识，并在给定医学问题时进行正确的分类。然而，模型在区分“证据不足”和“被反驳”这两个类别时的困难也表明，LLMs在医学知识回忆方面仍有待提高。

4. 论文贡献、业界影响及潜在应用场景

论文贡献

论文的主要贡献在于提出了一个新的数据集MedREQAL和一个新的评估方法，用于评估LLMs在医学知识回忆方面的性能。这个数据集不仅为相关领域的研究提供了新的数据来源，也为其他研究者提供了一个有价值的评估工具。此外，论文还通过实验验证了不同类型LLMs在医学知识回忆方面的性能差异，为未来的研究提供了有益的参考。

业界影响

论文的研究结果对于医疗健康领域的LLMs应用具有重要影响。首先，通过了解LLMs在医学知识回忆方面的性能差异，可以为相关应用的模型选择提供参考；其次，通过发现LLMs在区分“证据不足”和“被反驳”类别时的困难，可以为模型优化提供方向；最后，通过构建一个高质量的医学QA数据集，可以为相关领域的研究提供新的数据来源和评估工具。

潜在应用场景与商业机会

潜在的应用场景包括智能诊断、医疗咨询、在线健康教育等。例如，通过集成经过训练的LLMs到智能诊断系统中，可以帮助医生更快速、更准确地诊断疾病；通过开发基于LLMs的医疗咨询应用，可以为患者提供便捷、专业的医疗咨询服务；通过利用LLMs的医学知识生成功能，可以制作高质量的在线健康教育内容。这些应用场景都具有广阔的市场前景和商业潜力。

5. 未来探索方向与挑战

未来探索方向

未来的研究可以进一步探索如何提高LLMs在医学知识回忆方面的性能。例如，可以通过增加医学文本的预训练数据量、优化模型架构等方式来提高模型的性能；也可以通过引入多模态数据（如医学影像数据）来丰富模型的学习内容；此外，还可以探索如何结合人类专家的知识和经验来优化模型的输出结果。

面临的挑战

面临的挑战包括数据质量问题、模型可解释性问题以及知识更新问题。首先，医学知识的更新速度非常快，如何保证模型的数据源能够跟上医学知识的更新速度是一个挑战；其次，LLMs的决策过程通常缺乏可解释性，这使得人们难以理解和信任模型的输出结果；最后，由于LLMs的知识是通过预训练得到的，因此如何及时更新模型中的过时知识也是一个需要解决的问题。

6. 论文不足与存疑之处

论文不足

论文的不足之处在于只采用了零次学习的设置来评估模型的性能，没有探索其他学习设置（如少次学习、完全监督学习等）下的模型性能。此外，论文也没有对模型生成的回答进行人工评估，无法全面了解回答的质量和用户满意度。

需要进一步验证和存疑的问题

需要进一步验证的问题包括：模型在不同医学领域下的性能差异、模型在处理复杂医学问题时的表现等。存疑的问题包括：模型是否真正理解了医学知识的含义和逻辑关系、模型在处理具有误导性的医学信息时的表现等。

7. 非技术背景读者的启示与建议

启示

对于非技术背景的读者来说，这篇论文的启示在于了解了LLMs在医疗健康领域的应用潜力和挑战。虽然LLMs具有强大的自然语言处理能力，但在医疗健康领域的应用还需要考虑数据的权威性和可信度、模型的可解释性以及知识的更新速度等因素。因此，在未来的应用中需要综合考虑这些因素，以确保LLMs能够真正为人类健康事业做出贡献。

建议补充的背景知识

建议补充了解医疗健康领域的基础知识，如常见疾病的诊断方法、治疗原则以及医学术语等。此外，还需要了解机器学习和人工智能领域的基本知识，如神经网络、深度学习以及模型评估方法等。这些背景知识将有助于更好地理解论文的内容和技术细节。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.