特定领域检索增强生成技术提升大型语言模型在眼科领域的长篇消费者健康问答中的应用

尽管大型语言模型 (LLM) 在医学领域具有潜力,但它们可能会生成缺乏支持证据或基于幻觉证据的回答。虽然检索增强生成 (RAG) 普遍用于解决这个问题,但很少有研究在特定领域的后续应用中实施和评估 RAG。

我们开发了一个包含约 70,000 份眼科特定文档的 RAG 管道,在推理期间检索相关文档以增强 LLM。在一个关于长篇消费者健康问题的案例研究中,我们与 10 位医疗保健专业人员系统地评估了 LLM 在 100 个问题上使用和不使用 RAG 的回答(包括超过 500 篇参考文献)。评估重点关注证据的真实性、证据的选择和排序、证据的归属以及答案的准确性和完整性。

不使用 RAG 的 LLM 共提供了 252 篇参考文献。其中,45.3% 是幻觉,34.1% 包含轻微错误,20.6% 是正确的。相比之下,使用 RAG 的 LLM 显着提高了准确性(54.5% 正确)并降低了错误率(18.8% 轻微幻觉,26.7% 错误)。RAG 检索到的前 10 个文档中有 62.5% 被选为 LLM 回答中的首选参考文献,平均排名为 4.9。使用 RAG 还改进了证据归属(在 5 分制上从 1.85 提高到 2.49,P<0.001),尽管准确性略有下降(从 3.52 降至 3.23,P=0.03)和完整性(从 3.47 降至 3.27,P=0.17)。

结果表明,LLM 在回答中经常出现幻觉和错误的证据,这引起了对医疗领域后续应用的担忧。RAG 大大减少了此类证据的比例,但也遇到了挑战。与现有研究相比,结果突出了 (1) LLM 可能不会选择 RAG 排名靠前的文档,这导致幻觉证据仍然存在,(2) LLM 可能会错过 RAG 排名靠前的文档,以及 (3) RAG 中不相关的文档会降低回答的准确性和完整性,尤其是在长篇问答等具有挑战性的任务中。

总之,在长篇医学问答中,RAG 方法比非 RAG 方法表现出更高的有效性。然而,在证据检索、选择和归属方面仍然存在挑战,突出了进一步开发特定领域 LLM 和 RAG 技术的必要性。

1. 论文研究目标及问题背景

论文研究目标

论文《Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology》的主要研究目标是探索如何通过领域特定的检索增强生成(Retrieval Augmented Generation, RAG)技术,来增强大型语言模型(Large Language Models, LLMs)在医学领域,特别是眼科领域的长文本健康问答能力。

解决的实际问题

LLMs在医学领域展现出巨大潜力,但它们生成的回答往往缺乏证据支持或基于虚构证据。为了解决这一问题,论文提出了使用RAG技术,即在推理过程中引入领域特定的文档检索,以提高LLMs的准确性和证据的可信度。

是否是新问题

。尽管LLMs在自然语言处理领域取得了显著进展,但其在医学领域的实际应用仍面临诸多挑战,尤其是证据的真实性和可信度问题。这篇论文关注的就是如何在LLMs的应用中引入领域知识以增强其生成回答的准确性和证据的可信度。

科学假设及验证

论文试图验证的假设是:通过引入领域特定的文档检索,可以有效减少LLMs在生成医学领域回答时的虚构和错误证据,提高回答的准确性和证据的可信度。

相关研究与归类

  • 相关研究:已有研究表明LLMs在医学应用中可能产生虚构回答(如Hou et al., 2023),而RAG技术被提出作为解决方案之一(Gao et al., 2023)。然而,只有少数研究在具体下游应用中实现了RAG(如Guo et al., 2024)。
  • 归类:该研究属于自然语言处理(NLP)与医学交叉领域,具体聚焦于LLMs在医学问答系统中的应用改进。

关注的研究员

论文的通讯作者包括Yih-Chung Tham(来自新加坡国立大学)和Qingyu Chen(来自耶鲁大学),他们在LLMs与医学交叉领域的研究中具有显著贡献。

2. 新思路、方法及模型

新思路

论文提出了在LLMs推理过程中引入眼科领域特定的文档检索,通过RAG技术增强LLMs在长文本健康问答中的表现。这种方法的关键在于结合领域知识库,为LLMs提供真实、可靠的证据支持。

方法与模型

  • 领域特定语料库构建:论文从PubMed、眼科临床指南(如AAO的Preferred Practice Patterns)和EyeWiki中收集了约70,000篇眼科领域相关文档。
  • 索引与检索:对文档进行索引和嵌入处理,以便根据查询进行高效检索。使用BM25或基于语义相似度的检索函数,识别与查询最相关的文档。
  • RAG集成:将检索到的相关文档提供给LLMs,以生成具有证据支持的回答。

关键与优势

  • 领域知识集成:通过将领域特定知识集成到LLMs中,显著提高了回答的证据性和可信度。
  • 实时更新:RAG技术不需要对LLMs进行重新训练,因此可以实时更新领域知识库。
  • 减少虚构证据:实验结果表明,RAG显著减少了虚构证据的比例,提高了回答的准确性。

3. 实验设计与结果

实验设计

  • 数据集:选取了AAO论坛上的100个眼科健康问答对,涵盖视网膜、青光眼、白内障、干眼症和葡萄膜炎五个主题。
  • 模型:使用GPT-3.5作为LLMs代表,设置温度参数为0以减少生成响应的方差。
  • 评价指标:证据的准确性(事实性)、选择的合理性、回答的准确性和完整性、证据归因。

实验数据与结果

  • 证据准确性:不使用RAG的LLMs生成的参考中,45.3%为虚构证据,而使用RAG后,虚构证据比例降至18.8%,正确证据比例提升至54.5%。
  • 文档选择与排名:62.5%的RAG检索到的前10篇文档被选为LLMs响应中的前10篇引用,平均排名为4.9。
  • 回答准确性与完整性:尽管RAG提高了证据归因评分(从1.85提升至2.49),但回答的准确性(从3.52降至3.23)和完整性(从3.47降至3.27)略有下降,但差异不显著。

支持科学假设

实验结果很好地支持了论文的科学假设,即RAG技术能够显著减少LLMs在医学问答中的虚构证据,提高回答的证据性和可信度。

4. 论文贡献与影响

论文贡献

  • 方法创新:提出了基于眼科领域特定语料库的RAG方法,显著提升了LLMs在医学问答中的表现。
  • 系统评价:通过系统评价,量化了LLMs在使用RAG前后的证据性、准确性和完整性等关键指标。
  • 资源开放:将相关数据、模型和代码开源,促进了该领域研究的可复现性和进一步发展。

业界影响与应用场景

  • 提升医疗问答系统:为开发更可靠的医疗问答系统提供了新方法,有助于提高医患沟通效率和患者满意度。
  • 辅助医疗决策:为医生提供基于可靠证据的建议,辅助临床决策过程。
  • 个性化健康咨询:结合用户健康数据,提供更加个性化和精准的健康咨询服务。

工程师关注方面

  • 集成领域知识库:了解如何构建和维护领域特定知识库,以便为LLMs提供可靠证据支持。
  • 优化检索算法:探索更高效、准确的检索算法,提高RAG技术的整体性能。
  • 模型调优:研究如何针对不同应用场景调整LLMs参数,以平衡回答的准确性、完整性和证据性。

5. 未来探索与挑战

未来探索方向

  • 多领域RAG:探索将RAG技术应用于更多医学领域,构建跨领域的通用RAG框架。
  • 高级语义理解:研究如何提升LLMs的语义理解能力,以便更好地整合和解释检索到的领域知识。
  • 交互式问答:开发交互式问答系统,根据用户反馈动态调整回答内容和证据支持。

挑战与投资机会

  • 技术挑战:领域知识的动态更新、检索算法的优化、LLMs的语义理解等仍需进一步研究。
  • 投资机会:围绕RAG技术的医疗问答系统、个性化健康咨询平台等领域具有巨大市场潜力。

6. 论文不足与存疑

不足

  • 数据集局限性:研究仅使用了AAO论坛上的100个问答对,数据集规模较小,可能影响结果的普适性。
  • 模型单一性:仅使用了GPT-3.5作为LLMs代表,未探索其他LLMs模型的表现差异。
  • 评价标准主观性:部分评价指标(如回答的准确性和完整性)依赖人工评估,存在主观性。

存疑

  • 领域泛化能力:论文提出的RAG方法在眼科领域表现出色,但其泛化到其他医学领域的效果尚待验证。
  • 长期影响评估:研究未涉及RAG技术对医疗实践的长期影响评估,如患者满意度、医疗质量提升等。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: