在医疗领域利用迭代式后续问题改进检索增强生成

大型语言模型 (LLM) 的涌现能力在解决医学问题方面展现出巨大潜力。它们可以拥有相当多的医学知识，但仍然可能出现幻觉，并且在知识更新方面不够灵活。虽然检索增强生成 (RAG) 被提出，旨在利用外部知识库增强 LLM 的医学问答能力，但它在需要多轮信息检索的复杂情况下仍然可能失败。

为了解决这个问题，我们提出了用于医学的迭代式 RAG (i-MedRAG)，其中 LLM 可以根据先前的信息检索尝试迭代地提出后续查询。在 i-MedRAG 的每次迭代中，后续查询将由一个标准的 RAG 系统回答，并且它们将进一步用于指导下一次迭代中的查询生成。

我们的实验表明，与标准的 RAG 系统相比，i-MedRAG 在美国医师执照考试 (USMLE) 临床情景中的复杂问题以及大规模多任务语言理解 (MMLU) 数据集中的各种知识测试中，提高了各种 LLM 的性能。美国医师执照考试 (USMLE) 是美国医生执照考试，大规模多任务语言理解 (MMLU) 是一个涵盖多个领域的综合性知识测试数据集。值得注意的是，我们的零样本学习 i-MedRAG 优于 GPT-3.5 上所有现有的提示词工程和参数微调方法，在 MedQA 数据集上实现了 69.68% 的准确率。

此外，我们描述了 i-MedRAG 具有不同后续查询迭代次数和每次迭代不同查询数量的扩展特性。我们的案例研究表明，i-MedRAG 可以灵活地提出后续查询以形成推理链，从而提供对医学问题的深入分析。

据我们所知，这是第一个将后续查询纳入医学 RAG 的研究。

1. 论文的研究目标及实际问题

研究目标：
论文的研究目标是提出一种迭代式检索增强生成（Iterative Retrieval-Augmented Generation，简称i-MedRAG）框架，用于解决医疗领域的复杂问题回答任务。具体来说，论文旨在通过引入迭代式后续查询，改进现有检索增强生成（RAG）模型在处理需要多轮推理才能解答的医疗问题上的不足。

实际问题：
当前大型语言模型（LLMs）在医疗问答中虽然表现出色，但仍存在知识幻觉（即生成看似合理但不准确的内容）和知识更新不灵活的问题。尽管检索增强生成（RAG）方法通过引入外部知识库提升了LLMs的医疗问答能力，但对于需要多轮推理才能解答的复杂问题，传统的单次检索RAG方法效果有限。

是否为新问题：
这是一个新问题，尤其是在医疗问答领域，需要模型具备多轮推理和信息检索的能力。

科学假设：
通过引入迭代式后续查询，LLMs能够在医疗问答任务中表现出更好的性能，特别是在需要多轮推理的复杂问题上。

2. 新思路、方法或模型

新思路：
论文提出了迭代式RAG（i-MedRAG）框架，该框架允许LLMs基于先前的信息检索尝试，迭代地生成后续查询，从而逐步构建出针对复杂问题的推理链。

新方法：

迭代式查询生成：LLMs在每次迭代中生成一系列后续查询，这些查询通过RAG系统得到回答，然后这些查询-回答对被用于指导下一次迭代的查询生成。
信息检索与历史结合：在每次迭代中，LLMs不仅基于原始问题，还基于之前迭代中的查询-回答历史来生成新的查询。

关键：
迭代式查询生成和信息检索历史的结合，使得LLMs能够逐步深入问题的核心，通过多轮推理找到正确答案。

特点与优势：

相比于单次检索的RAG，i-MedRAG能够处理需要多轮推理的复杂医疗问题。
通过逐步构建推理链，i-MedRAG提供了更深入的问题分析能力。
实验结果显示，i-MedRAG在多个医疗问答数据集上均表现出色，特别是在复杂问题上。

3. 实验设计与结果

实验设计：

数据集：MedQA（美国医学执照考试子集）和MMLU-Med（大规模多任务语言理解数据集中的医疗任务）。
对比方法：包括CoT（链式思考提示）、SC（自我一致性提示）、KSL（知识求解器）、MedAgents、LLMs-AMT（增强医学文本的LLMs）、MedRAG等。
评估指标：多选题准确率。
检索部分：使用MedCPT作为文本检索器，Textbooks和Statpearls作为外部知识库。

实验数据与结果：