MMORE:大规模多模态开放式检索增强生成与提取

论文信息

  • 标题 (Title):MMORE: Massive Multimodal Open RAG & Extraction

  • 作者 (Authors):Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, David Kalajdzic, Matthias Meyer, Fabrice Nemo, Mary-Anne Hartley

  • 发表年份 (Year):2025

  • 原文链接 (URL)https://arxiv.org/abs/2509.11937

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):当前,海量的知识被锁定在各种异构的文档格式中,阻碍了大规模的自动化解析,而现有的处理流程通常是特定于格式的、难以扩展的临时拼凑。本研究旨在解决这一问题,推出MMORE,一个开源、可扩展的流水线,用于从包括文本、图像、音视频在内的多种格式中进行大规模的多模态知识提取、转换和检索。

  • 方法 (Methods):研究者设计并实现了一个模块化、分布式的处理流水线MMORE,支持超过15种文件类型 。它将异构内容标准化为统一的JSON格式,并利用Dask框架实现跨CPU和GPU的自动并行化处理 。研究通过与流行的Docling工具进行基准测试,评估了其处理效率和准确性 。此外,该研究在PubMedQA数据集上评估了MMORE的RAG(检索增强生成)模块对大型语言模型(LLM)性能的提升效果

  • 结果 (Results):在处理效率上,MMORE在分布式模式(4节点)下处理速度比单节点基线提升了3.8倍 。在处理扫描版PDF的准确性上,MMORE比Docling高出40% 。在RAG评估中,使用MMORE增强的医疗LLM在PubMedQA任务上的准确率随着检索文档数量的增加而提高

  • 结论 (Conclusion):MMORE为在多样化、真实世界的多模态数据上部署与任务无关的RAG系统提供了一个强大、可扩展且开源的基础 。它在处理速度、准确性和多模态支持方面均表现出显著优势,为构建可验证的多模态LLM应用奠定了基础

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:截至2025年,公开网络上存在超过2.5万亿个PDF文档以及海量的幻灯片、表格、音视频等混合模态数据 。然而,由于格式的异构性和脆弱性,这些资源中只有不到1%被用于主流的机器学习语料库 。随着高质量人类文本数据预计最快在2026年被耗尽 ,寻找格式无关的数据预处理工作流变得至关重要 。同时,LLM的幻觉和事实漂移问题依然严峻 ,通过RAG(检索增强生成)来提升模型输出的可验证性成为一个关键研究方向

  • 核心研究问题 (RQs):如何设计一个统一、可扩展、开源的端到端流水线,使其能够高效地处理大规模、异构的多模态数据(覆盖文档、表格、音视频等),并将其无缝整合到一个集成的RAG框架中,以提升大型语言模型应用的准确性和可靠性?

  • 核心研究问题是否是一个新的问题? 是的。论文指出,虽然已存在独立的文档解析流水线和RAG框架,但目前缺乏一个同时提供广泛模态覆盖、高吞吐量和端到端集成能力的单一开源解决方案,特别是能够原生支持多节点、多GPU并行化处理的系统

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究的主要观点和不足

    1. 文档摄取与解析流水线:现有工具如NV-Ingest、Docling、Surya等,或在支持的模态上有限(如缺乏音视频处理),或主要在单节点上执行,吞吐量受限,或只提供OCR等部分功能,缺乏完整的端到端集成 。商业服务如LLMWhisperer则缺乏开源性,限制了复现和实验

    2. RAG框架:开源库如LangChain和LlamaIndex提供了RAG的高级抽象,但它们依赖外部加载器进行特定模态的解析,并未解决高效、大规模数据摄取的问题 。其他框架如Unstructured.io、Haystack等也只解决了流水线中的部分组件

  • 研究缺口 (Gap):现有工作是碎片化的。要么是强大的解析工具但缺乏可扩展性和完整的RAG集成,要么是灵活的RAG框架但缺乏一个强大的、可扩展的多模态数据摄取前端。MMORE旨在填补这一缺口,通过一个统一的开源框架,将可扩展的摄取层与任务无关的检索API结合起来,实现了从原始企业数据到多模态助手的端到端解决方案

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标:引入一个名为MMORE的开源工具,它是一个用于大规模多模态数据提取、转换和检索的统一流水线,旨在为LLM应用提供准确、有上下文依据的信息

  • 核心假设/命题:一个基于Dask等分布式计算框架构建的、模块化的、可扩展的流水线,能够:(1) 在处理速度和准确性上超越现有的单节点处理工具(如Docling);(2) 支持更广泛的文件类型,尤其是音视频等多模态数据;(3) 通过其集成的RAG功能有效提升下游LLM任务的性能。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究属于系统构建与实证评估 (Systems Building & Empirical Evaluation)。研究者首先设计并实现了一个复杂的软件系统(MMORE),然后通过定量的基准测试来验证其性能和有效性。

  • 具体研究思路/模型

    • 论文中提到的解决方案之关键:MMORE的核心优势在于其模块化、可扩展的分布式架构。它并非从零开始构建所有组件,而是巧妙地编排和集成了多个业界领先的开源工具(如使用Surya进行PDF解析,使用Whisper进行音频转录),并将重心放在实现可扩展的调度和统一的数据流上

    • 跟之前的方法相比有什么特点和优势?

      1. 原生分布式处理:基于Dask构建,MMORE能够自动在多节点、多GPU集群上实现工作负载均衡和并行处理,无需用户手动配置,从而实现高吞吐量 。这是相对于Docling等单节点工具的核心优势。

      2. 广泛的多模态支持:MMORE是少数原生支持音视频文件处理的开源流水线之一,能将所有异构数据统一处理

      3. 统一的输出格式:所有输入文件都被转换为标准的MultimodalSample JSON格式,该格式通过占位符巧妙地保留了文本与图像、表格等非文本元素之间的位置关系,为下游多模态任务提供了便利

      4. 高度可扩展性:添加对新文件类型的支持只需实现一个轻量级的子类,促进了社区贡献和长期可维护性

2.2. 数据来源与样本 (Data Source & Sample)

  • 处理效率评估:使用一个包含19个文件、横跨9种独特文件类型的多样化数据集 。对于可伸缩性分析,通过复制一个18页的论文内容,生成了长度从36页到720页不等的合成文档

  • 处理准确性评估:使用了来自古腾堡计划(Project Gutenberg)的两本公版书:一本是排版清晰的数字原生PDF(《The Blue Castle》),另一本是需要OCR处理的扫描图像版PDF(《The Great Gatsby》)

  • RAG性能评估:使用PubMedQA生物医学问答基准数据集 。检索语料库由所有PubMed摘要和结论构建而成,并使用MMORE进行索引

2.3. 操作化与测量 (Operationalization & Measurement)

  • 处理效率:通过**总处理时间(秒)**来测量 。可伸缩性通过在单节点与4节点Kubernetes集群上运行的速度提升倍数来衡量

  • 处理准确性:通过将提取的文本与原始纯文本进行比较来测量,使用了三个标准指标:

    • BLEU:评估n-gram重叠度

    • ROUGE-L:基于最长公共子序列进行评估

    • 字符错误率 (CER):基于莱文斯坦距离计算

  • RAG性能:通过在PubMedQA任务上的**问答准确率(%)**来测量 。通过改变检索的文档数量k(例如 k=0, 1, 3)来评估检索深度对模型性能的影响

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  1. 效率显著优于基线:MMORE在处理速度上全面超越Docling。对于长文档(超过180页),MMORE的单节点模式已显现优势 。其分布式(4节点)模式在处理720页文档时,实现了3.8倍的延迟降低,证明了其架构的卓越可扩展性 。在处理混合文件类型时,MMORE的默认模式和快速模式分别比Docling快45.48%和155.38%

  2. 在挑战性任务上准确性更高:对于需要OCR的扫描版PDF,MMORE的默认模式表现出色(CER为2.95%),而Docling则出现大量OCR错误(CER高达55%),显示了MMORE在处理低质量文档时的鲁棒性

  3. 更强的多模态兼容性:在处理包含9种不同类型文件的测试集时,MMORE成功处理了所有19个文件,而Docling则有5个文件不支持

  4. RAG模块有效提升下游任务性能:在PubMedQA基准测试中,无论是8B还是70B的Meditron3模型,其准确率都随着RAG检索文档数量 k 的增加而稳定提升,证明了MMORE RAG流水线能有效注入领域知识,提高LLM的回答准确率

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图表1:处理时间 vs. PDF长度 (Figure 2)

    • 展示内容:该图以PDF页数为x轴,处理时间(秒)为y轴,对比了Docling和MMORE三种模式(单节点默认、单节点快速、4节点)的性能。

    • 揭示的关系:该图直观地展示了可扩展性的重要性。Docling的处理时间呈超线性增长,而MMORE的单节点模式接近线性增长 。最下方的MMORE(4节点)曲线则显示出分布式处理带来的巨大速度优势,证明了其架构设计的成功

  • 图表2:准确性评估 (Table 1)

    • 展示内容:该表在两个不同质量的PDF上,使用BLEU、ROUGE-L和CER指标对比了MMORE(两种模式)和Docling的文本提取准确性。

    • 揭示的关系:在处理扫描版《The Great Gatsby》时,MMORE默认模式的CER仅为0.0295,而Docling高达0.5518 。这一巨大差距凸显了MMORE在OCR密集型任务上的压倒性优势,证明其选择的底层工具和集成方式更为先进和鲁棒。

  • 图表3:RAG对PubMedQA准确率的影响 (Figure 3)

    • 展示内容:该图展示了Meditron3-8B和Meditron3-70B模型在不同检索深度 k(0, 1, 3)下的PubMedQA准确率。

    • 揭示的关系:两条曲线均呈现明显的上升趋势,表明从MMORE构建的知识库中检索相关文档并作为上下文提供给LLM,能够有效提高其在专业领域问答任务中的表现 。这直接验证了MMORE作为一个端到端RAG系统的价值。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 回答研究问题:是的,研究结果有力地回答了引言中提出的核心问题。MMORE通过其分布式架构、广泛的模态支持和高效的RAG集成,成功地提供了一个统一、可扩展的开源解决方案。实验证明,该方案在效率和准确性方面均优于现有代表性工具,并能有效提升下游LLM应用的性能。

  • 发现的意义:这些发现表明,对于处理海量、异构的真实世界数据,一个精心设计的、可扩展的“编排”系统,比单一的、功能固定的工具更具优势。MMORE的成功为业界提供了一个处理非结构化和多模态数据的实用范本,证明了通过整合优秀的开源组件并专注于解决可扩展性问题,可以创造出巨大的价值。

4.2. 理论贡献 (Theoretical Contributions)

  • 对现有理论的贡献:本文的主要贡献是工程和架构层面的,而非纯理论创新。它为大规模数据处理系统RAG系统的设计提供了一个重要的参考实现 (Reference Implementation) 和架构蓝图。其核心贡献在于展示了如何通过分布式计算框架(Dask)来有效解决多模态数据摄取这一长期存在的工程瓶颈,从而将强大的RAG范式应用到更广泛、更复杂的真实数据上。

  • 对业界的影响:MMORE的开源发布极大地降低了企业和研究机构构建复杂RAG应用的门槛 。它提供了一个“开箱即用”且能应对工业级负载的解决方案,有望加速多模态AI助手、企业知识库和可验证LLM应用的发展。

4.3. 实践启示 (Practical Implications)

  • 对数据工程师和MLOps从业者:MMORE提供了一套处理异构数据的最佳实践。它强调了模块化设计、标准化数据格式以及利用现有开源工具的重要性,而不是重复造轮子。

  • 对企业和研究人员:可以直接利用MMORE来快速处理内部积累的大量多格式文档,构建自己的知识库,并部署RAG应用,从而提升信息检索效率和AI模型的可靠性。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 研究的局限性:论文坦诚地指出,虽然目前的准确性评估结果令人鼓舞,但它基于一个相对较小的数据集(两本书),需要在一个更大、更多样化的文档集上进行更全面的基准测试,以稳健地验证其泛化能力

  • 未来研究方向(论文作者明确指出):

    1. 多语言检索:扩展对多语言文档的处理和检索支持

    2. 音视频对齐:深化对音视频内容的处理,实现更精准的内容对齐和检索

    3. 联邦处理:在隐私敏感的环境中探索联邦处理模式

5. 结论 (Conclusion)

MMORE是一个可扩展、开源的流水线,专为处理多样化的真实世界数据并支持检索增强生成而设计 。它支持超过15种文件类型,包括PDF、电子表格、图像和音视频,实现了对这些数据的高吞吐量结构化处理,以便融入LLM工作流 。实验结果证明,MMORE在处理速度和准确性(尤其是在OCR重度文档上)方面均优于基准工具Docling,并且其集成的RAG流水线能有效提升生物医学问答的准确率 。作为一个为可扩展性和大规模部署而构建的系统,MMORE为开发可验证的、多模态的LLM应用提供了一个灵活而坚实的基础

6. 核心参考文献 (Core References)

  • Auer, C., et al. (2024). Docling technical report. (本文进行性能比较的主要基线工具)

  • Dask Development Team. (2016). Dask: Library for dynamic task scheduling. (MMORE实现可扩展性的核心底层技术)

  • Paruchuri, V. and Team, D. (2025). Surya: A lightweight document ocr and analysis toolkit. (MMORE用于PDF解析的关键开源组件之一)

  • Radford, A., et al. (2023). Robust speech recognition via large-scale weak supervision. (MMORE用于音频转录的Whisper模型的原始论文)

  • Jin, Q., et al. (2019). Pubmedqa: A dataset for biomedical research question answering. (用于评估MMORE RAG模块性能的基准数据集)


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: