MMORE：大规模多模态开放式检索增强生成与提取

论文信息

标题 (Title)：MMORE: Massive Multimodal Open RAG & Extraction
作者 (Authors)：Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, David Kalajdzic, Matthias Meyer, Fabrice Nemo, Mary-Anne Hartley
发表年份 (Year)：2025
原文链接 (URL)：https://arxiv.org/abs/2509.11937

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：当前，海量的知识被锁定在各种异构的文档格式中，阻碍了大规模的自动化解析，而现有的处理流程通常是特定于格式的、难以扩展的临时拼凑。本研究旨在解决这一问题，推出MMORE，一个开源、可扩展的流水线，用于从包括文本、图像、音视频在内的多种格式中进行大规模的多模态知识提取、转换和检索。
方法 (Methods)：研究者设计并实现了一个模块化、分布式的处理流水线MMORE，支持超过15种文件类型。它将异构内容标准化为统一的JSON格式，并利用Dask框架实现跨CPU和GPU的自动并行化处理。研究通过与流行的Docling工具进行基准测试，评估了其处理效率和准确性。此外，该研究在PubMedQA数据集上评估了MMORE的RAG（检索增强生成）模块对大型语言模型（LLM）性能的提升效果。
结果 (Results)：在处理效率上，MMORE在分布式模式（4节点）下处理速度比单节点基线提升了3.8倍。在处理扫描版PDF的准确性上，MMORE比Docling高出40% 。在RAG评估中，使用MMORE增强的医疗LLM在PubMedQA任务上的准确率随着检索文档数量的增加而提高。
结论 (Conclusion)：MMORE为在多样化、真实世界的多模态数据上部署与任务无关的RAG系统提供了一个强大、可扩展且开源的基础。它在处理速度、准确性和多模态支持方面均表现出显著优势，为构建可验证的多模态LLM应用奠定了基础。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

研究背景：截至2025年，公开网络上存在超过2.5万亿个PDF文档以及海量的幻灯片、表格、音视频等混合模态数据。然而，由于格式的异构性和脆弱性，这些资源中只有不到1%被用于主流的机器学习语料库。随着高质量人类文本数据预计最快在2026年被耗尽，寻找格式无关的数据预处理工作流变得至关重要。同时，LLM的幻觉和事实漂移问题依然严峻，通过RAG（检索增强生成）来提升模型输出的可验证性成为一个关键研究方向。
核心研究问题 (RQs)：如何设计一个统一、可扩展、开源的端到端流水线，使其能够高效地处理大规模、异构的多模态数据（覆盖文档、表格、音视频等），并将其无缝整合到一个集成的RAG框架中，以提升大型语言模型应用的准确性和可靠性？
核心研究问题是否是一个新的问题？ 是的。论文指出，虽然已存在独立的文档解析流水线和RAG框架，但目前缺乏一个同时提供广泛模态覆盖、高吞吐量和端到端集成能力的单一开源解决方案，特别是能够原生支持多节点、多GPU并行化处理的系统。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究的主要观点和不足：
1. 文档摄取与解析流水线：现有工具如NV-Ingest、Docling、Surya等，或在支持的模态上有限（如缺乏音视频处理），或主要在单节点上执行，吞吐量受限，或只提供OCR等部分功能，缺乏完整的端到端集成。商业服务如LLMWhisperer则缺乏开源性，限制了复现和实验。
2. RAG框架：开源库如LangChain和LlamaIndex提供了RAG的高级抽象，但它们依赖外部加载器进行特定模态的解析，并未解决高效、大规模数据摄取的问题。其他框架如Unstructured.io、Haystack等也只解决了流水线中的部分组件。
研究缺口 (Gap)：现有工作是碎片化的。要么是强大的解析工具但缺乏可扩展性和完整的RAG集成，要么是灵活的RAG框架但缺乏一个强大的、可扩展的多模态数据摄取前端。MMORE旨在填补这一缺口，通过一个统一的开源框架，将可扩展的摄取层与任务无关的检索API结合起来，实现了从原始企业数据到多模态助手的端到端解决方案。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：引入一个名为MMORE的开源工具，它是一个用于大规模多模态数据提取、转换和检索的统一流水线，旨在为LLM应用提供准确、有上下文依据的信息。
核心假设/命题：一个基于Dask等分布式计算框架构建的、模块化的、可扩展的流水线，能够：(1) 在处理速度和准确性上超越现有的单节点处理工具（如Docling）；(2) 支持更广泛的文件类型，尤其是音视频等多模态数据；(3) 通过其集成的RAG功能有效提升下游LLM任务的性能。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

研究范式：本研究属于系统构建与实证评估 (Systems Building & Empirical Evaluation)。研究者首先设计并实现了一个复杂的软件系统（MMORE），然后通过定量的基准测试来验证其性能和有效性。
具体研究思路/模型：
- 论文中提到的解决方案之关键：MMORE的核心优势在于其模块化、可扩展的分布式架构。它并非从零开始构建所有组件，而是巧妙地编排和集成了多个业界领先的开源工具（如使用Surya进行PDF解析，使用Whisper进行音频转录），并将重心放在实现可扩展的调度和统一的数据流上。
- 跟之前的方法相比有什么特点和优势?
  1. 原生分布式处理：基于Dask构建，MMORE能够自动在多节点、多GPU集群上实现工作负载均衡和并行处理，无需用户手动配置，从而实现高吞吐量。这是相对于Docling等单节点工具的核心优势。
  2. 广泛的多模态支持：MMORE是少数原生支持音视频文件处理的开源流水线之一，能将所有异构数据统一处理。
  3. 统一的输出格式：所有输入文件都被转换为标准的MultimodalSample JSON格式，该格式通过占位符巧妙地保留了文本与图像、表格等非文本元素之间的位置关系，为下游多模态任务提供了便利。
  4. 高度可扩展性：添加对新文件类型的支持只需实现一个轻量级的子类，促进了社区贡献和长期可维护性。

2.2. 数据来源与样本 (Data Source & Sample)

处理效率评估：使用一个包含19个文件、横跨9种独特文件类型的多样化数据集。对于可伸缩性分析，通过复制一个18页的论文内容，生成了长度从36页到720页不等的合成文档。
处理准确性评估：使用了来自古腾堡计划（Project Gutenberg）的两本公版书：一本是排版清晰的数字原生PDF（《The Blue Castle》），另一本是需要OCR处理的扫描图像版PDF（《The Great Gatsby》）。
RAG性能评估：使用PubMedQA生物医学问答基准数据集。检索语料库由所有PubMed摘要和结论构建而成，并使用MMORE进行索引。

2.3. 操作化与测量 (Operationalization & Measurement)

处理效率：通过**总处理时间（秒）**来测量。可伸缩性通过在单节点与4节点Kubernetes集群上运行的速度提升倍数来衡量。
处理准确性：通过将提取的文本与原始纯文本进行比较来测量，使用了三个标准指标：
- BLEU：评估n-gram重叠度。
- ROUGE-L：基于最长公共子序列进行评估。
- 字符错误率 (CER)：基于莱文斯坦距离计算。
RAG性能：通过在PubMedQA任务上的**问答准确率（%）**来测量。通过改变检索的文档数量k（例如 k=0, 1, 3）来评估检索深度对模型性能的影响。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

效率显著优于基线：MMORE在处理速度上全面超越Docling。对于长文档（超过180页），MMORE的单节点模式已显现优势。其分布式（4节点）模式在处理720页文档时，实现了3.8倍的延迟降低，证明了其架构的卓越可扩展性。在处理混合文件类型时，MMORE的默认模式和快速模式分别比Docling快45.48%和155.38% 。
在挑战性任务上准确性更高：对于需要OCR的扫描版PDF，MMORE的默认模式表现出色（CER为2.95%），而Docling则出现大量OCR错误（CER高达55%），显示了MMORE在处理低质量文档时的鲁棒性。
更强的多模态兼容性：在处理包含9种不同类型文件的测试集时，MMORE成功处理了所有19个文件，而Docling则有5个文件不支持。
RAG模块有效提升下游任务性能：在PubMedQA基准测试中，无论是8B还是70B的Meditron3模型，其准确率都随着RAG检索文档数量 k 的增加而稳定提升，证明了MMORE RAG流水线能有效注入领域知识，提高LLM的回答准确率。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图表1：处理时间 vs. PDF长度 (Figure 2)
- 展示内容：该图以PDF页数为x轴，处理时间（秒）为y轴，对比了Docling和MMORE三种模式（单节点默认、单节点快速、4节点）的性能。
- 揭示的关系：该图直观地展示了可扩展性的重要性。Docling的处理时间呈超线性增长，而MMORE的单节点模式接近线性增长。最下方的MMORE（4节点）曲线则显示出分布式处理带来的巨大速度优势，证明了其架构设计的成功。
图表2：准确性评估 (Table 1)
- 展示内容：该表在两个不同质量的PDF上，使用BLEU、ROUGE-L和CER指标对比了MMORE（两种模式）和Docling的文本提取准确性。
- 揭示的关系：在处理扫描版《The Great Gatsby》时，MMORE默认模式的CER仅为0.0295，而Docling高达0.5518 。这一巨大差距凸显了MMORE在OCR密集型任务上的压倒性优势，证明其选择的底层工具和集成方式更为先进和鲁棒。
图表3：RAG对PubMedQA准确率的影响 (Figure 3)
- 展示内容：该图展示了Meditron3-8B和Meditron3-70B模型在不同检索深度 k（0, 1, 3）下的PubMedQA准确率。
- 揭示的关系：两条曲线均呈现明显的上升趋势，表明从MMORE构建的知识库中检索相关文档并作为上下文提供给LLM，能够有效提高其在专业领域问答任务中的表现。这直接验证了MMORE作为一个端到端RAG系统的价值。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

回答研究问题：是的，研究结果有力地回答了引言中提出的核心问题。MMORE通过其分布式架构、广泛的模态支持和高效的RAG集成，成功地提供了一个统一、可扩展的开源解决方案。实验证明，该方案在效率和准确性方面均优于现有代表性工具，并能有效提升下游LLM应用的性能。
发现的意义：这些发现表明，对于处理海量、异构的真实世界数据，一个精心设计的、可扩展的“编排”系统，比单一的、功能固定的工具更具优势。MMORE的成功为业界提供了一个处理非结构化和多模态数据的实用范本，证明了通过整合优秀的开源组件并专注于解决可扩展性问题，可以创造出巨大的价值。

4.2. 理论贡献 (Theoretical Contributions)

对现有理论的贡献：本文的主要贡献是工程和架构层面的，而非纯理论创新。它为大规模数据处理系统和RAG系统的设计提供了一个重要的参考实现 (Reference Implementation) 和架构蓝图。其核心贡献在于展示了如何通过分布式计算框架（Dask）来有效解决多模态数据摄取这一长期存在的工程瓶颈，从而将强大的RAG范式应用到更广泛、更复杂的真实数据上。
对业界的影响：MMORE的开源发布极大地降低了企业和研究机构构建复杂RAG应用的门槛。它提供了一个“开箱即用”且能应对工业级负载的解决方案，有望加速多模态AI助手、企业知识库和可验证LLM应用的发展。

4.3. 实践启示 (Practical Implications)

对数据工程师和MLOps从业者：MMORE提供了一套处理异构数据的最佳实践。它强调了模块化设计、标准化数据格式以及利用现有开源工具的重要性，而不是重复造轮子。
对企业和研究人员：可以直接利用MMORE来快速处理内部积累的大量多格式文档，构建自己的知识库，并部署RAG应用，从而提升信息检索效率和AI模型的可靠性。

4.4. 局限性与未来研究 (Limitations & Future Research)

研究的局限性：论文坦诚地指出，虽然目前的准确性评估结果令人鼓舞，但它基于一个相对较小的数据集（两本书），需要在一个更大、更多样化的文档集上进行更全面的基准测试，以稳健地验证其泛化能力。
未来研究方向（论文作者明确指出）：
1. 多语言检索：扩展对多语言文档的处理和检索支持。
2. 音视频对齐：深化对音视频内容的处理，实现更精准的内容对齐和检索。
3. 联邦处理：在隐私敏感的环境中探索联邦处理模式。

5. 结论 (Conclusion)

MMORE是一个可扩展、开源的流水线，专为处理多样化的真实世界数据并支持检索增强生成而设计。它支持超过15种文件类型，包括PDF、电子表格、图像和音视频，实现了对这些数据的高吞吐量结构化处理，以便融入LLM工作流。实验结果证明，MMORE在处理速度和准确性（尤其是在OCR重度文档上）方面均优于基准工具Docling，并且其集成的RAG流水线能有效提升生物医学问答的准确率。作为一个为可扩展性和大规模部署而构建的系统，MMORE为开发可验证的、多模态的LLM应用提供了一个灵活而坚实的基础。

6. 核心参考文献 (Core References)

Auer, C., et al. (2024). Docling technical report. (本文进行性能比较的主要基线工具)
Dask Development Team. (2016). Dask: Library for dynamic task scheduling. (MMORE实现可扩展性的核心底层技术)
Paruchuri, V. and Team, D. (2025). Surya: A lightweight document ocr and analysis toolkit. (MMORE用于PDF解析的关键开源组件之一)
Radford, A., et al. (2023). Robust speech recognition via large-scale weak supervision. (MMORE用于音频转录的Whisper模型的原始论文)
Jin, Q., et al. (2019). Pubmedqa: A dataset for biomedical research question answering. (用于评估MMORE RAG模块性能的基准数据集)

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.