OmniVinci:通过增强架构和数据实现全模态理解大语言模型


论文信息

  • 标题 (Title):OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM


  • 作者 (Authors):Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, 等 (NVIDIA 研究团队)


  • 发表年份 (Year):2025


  • 原文链接 (URL)https://arxiv.org/abs/2510.15870

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):该研究旨在构建一个强大的、开源的、能够像人类一样同时感知和理解多种模态(视觉、音频、文本)的全模态大语言模型 (omni-modal LLM)。其核心目标是系统性地探究并优化模型架构与数据策略,以解决现有模型训练成本高昂且设计选择缺乏系统性验证的问题。

  • 方法 (Methods):研究提出了名为 OmniVinci 的新模型,其核心方法包含两个层面:

    1. 模型架构创新:引入了三个关键模块:(i) OmniAlignNet,利用对比学习加强视觉和音频在共享潜在空间中的语义对齐;(ii) Temporal Embedding Grouping (TEG),用于捕捉视觉和音频信号之间的相对时间顺序;(iii) Constrained Rotary Time Embedding (CRTE),用于编码全模态嵌入中的绝对时间信息。

    2. 数据策略创新:设计了一套数据策划与合成流程,生成了 2400 万条单模态和全模态对话数据。该流程通过一个“全模态数据引擎”来纠正单一模态生成的描述中存在的“模态特有幻觉” (modality-specific hallucination),从而创造出高质量的联合训练数据。

  • 结果 (Results):OmniVinci 在多个权威基准测试中取得了当前最佳(SOTA)性能。与强大的基线模型 Qwen2.5-Omni 相比,OmniVinci 在跨模态理解 (DailyOmni)、音频 (MMAR) 和视频 (Video-MME) 基准上分别取得了 +19.05、+1.7 和 +3.9 的显著性能提升。尤为重要的是,该模型达到此性能仅使用了 0.2T 训练数据量,相比 Qwen2.5-Omni 的 1.2T,训练效率提升了 6 倍。

  • 结论 (Conclusion):研究成功构建了一个更高效、更强大的开源全模态 LLM。其核心贡献在于提出了一套经过充分验证的架构设计和数据策略,证明了不同模态在感知和推理层面可以相互增强。该模型在机器人、医疗 AI 和智能工厂等下游任务中展现了巨大应用潜力。


1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

本研究处于多模态大语言模型(Multimodal LLMs)的前沿领域。当前,LLMs 已经学会了“看”(视觉理解)和“听”(音频理解),并且最新的研究开始尝试统一视频和音频的联合对齐,向通用人工智能迈进。然而,构建一个能同时处理视觉、音频和语言的“全模态”(omni-modal)系统面临巨大挑战:训练过程极其昂贵且复杂,其成功严重依赖于网络架构和数据配方的恰当选择。

因此,本文要回答的核心研究问题 (RQs) 是:

  • RQ1: 如何设计一个高效的模型架构,以实现视觉和音频等多模态信息在语义和时间维度上的深度对齐与融合?

  • RQ2: 如何解决全模态训练数据稀缺的问题,并生成高质量的数据以支持模型的联合学习?

  • RQ3: 能否在显著提升模型性能的同时,大幅降低训练成本,使强大的全模态模型更加普及?

这是一个在现有基础上追求更高性能和效率的新问题,特别是其对架构和数据策略进行了系统性的消融研究,这在以往的开源模型发布中较为少见。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

作者梳理了视觉语言模型(如 Flamingo)和音频语言模型(如 Qwen-Audio)的现有工作,指出它们大多专注于单一感官能力的增强。虽然近期出现了一些全模态模型(如 Gemini, Phi-4-MM, Qwen2.5-Omni),但它们存在以下研究缺口:

  1. 架构设计相对简单:许多现有模型在架构选择上较为直接,缺乏对关键设计(如模态对齐、时间建模)的深度、系统性探索和验证。

  2. 缺乏详尽的消融研究:现有技术报告通常直接给出最终模型,而缺少对各个创新点贡献的量化分析,使得社区难以理解哪些设计是真正有效的。

  3. 开源模型与闭源模型的差距:尽管开源社区努力追赶,但在全模态能力上,与 Google 的 Gemini 等闭源模型仍有差距,且训练效率有待提高。

本文的创新点和必要性在于,它不仅要构建一个SOTA的开源全模态模型,更重要的是,它通过严谨的实验和消融研究,提供了一套经过验证的、高效的架构和数据解决方案,填补了上述研究缺口。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标

  • 系统性地探索和验证用于构建全模态 LLM 的关键架构设计和数据策略。

  • 基于探索结果,构建一个在性能和效率上都达到前沿水平的开源全模态 LLM——OmniVinci。

  • 展示该模型在多样化下游任务中的应用价值。

核心假设

  • H1: 一个专用于对齐视觉和音频的模块(OmniAlignNet),能比简单的特征拼接或线性投射更有效地创建语义一致的共享表示空间。

  • H2: 通过显式地对模态间的相对(TEG)和绝对(CRTE)时间关系进行建模,可以显著提升模型对动态、时序信息的理解能力。

  • H3: 通过结合“隐式学习”(利用现有视频数据)和“显式学习”(利用合成的全模态数据)的数据策略,可以有效克服数据稀缺性,并提升模型的跨模态联合理解能力。


2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究属于定量研究范式,采用构建式研究方法(Constructive Research),即通过设计、构建并评估一个新的人工智能系统(OmniVinci)来验证其理论和假设。

论文中提到的解决方案之关键是什么?
关键在于一个协同设计的架构与数据策略。它不是单一模块的创新,而是一个系统性的解决方案,包含三大架构创新和一个数据引擎:

  1. OmniAlignNet:这是解决语义对齐的关键。它不只是将视觉和音频特征简单映射,而是借鉴 CLIP 的思想,通过对比学习损失函数,强制让来自同一视频的视觉和音频嵌入在共享空间中“相互靠近”,而与其他视频的嵌入“相互远离”,从而实现更深层次的语义绑定。

  2. Temporal Embedding Grouping (TEG):解决相对时间对齐的关键。它将不同模态的嵌入按时间戳分组,并按时间顺序排列输入给 LLM。例如,[视频帧1, 视频帧2, 音频片段1, 音频片段2, 视频帧3...] 这样的序列,让 LLM 能自然地学习到事件的先后关系。

  3. Constrained Rotary Time Embedding (CRTE):解决绝对时间编码的关键。它改进了旋转位置编码(RoPE),为每个模态嵌入注入其在视频中的精确时间戳信息。其创新点在于使用了一个几何级数变化的频率谱,使得模型既能感知毫秒级的细微时间差异,也能理解分钟级的长程时间关系。

跟之前的方法相比有什么特点和优势?

  • 更全面的对齐:之前的方法可能只关注语义对齐或只进行简单的时间排序。OmniVinci 通过三个模块的组合,同时解决了语义对齐、相对时间对齐、绝对时间编码三大挑战,对齐方式更全面、更精细。

  • 更高的训练效率:通过精心设计的数据引擎(见下文)和架构,OmniVinci 在达到更高性能的同时,训练数据需求量锐减为对手的 1/6,这在实践中是巨大的优势。

  • 系统性的验证:与许多直接发布最终模型的“技术报告”不同,本文通过详尽的消融实验(见表1),清晰地证明了其提出的每个模块都对最终性能有显著的正面贡献,方法论更严谨、更具说服力。

2.2. 数据来源与样本 (Data Source & Sample)

研究使用了包含 2400 万个对话样本的庞大数据集,这些数据来自 150 多个公开数据集,并结合了自研的数据合成流程。

  • 来源:涵盖了图像、视频、音频(语音、非语音声音)等多种模态的公开数据集。

  • 核心创新:Omni-Modal Data Engine:为了解决高质量全模态数据稀缺的问题,作者设计了一个数据引擎。其工作流程如下(如图4所示):

    1. 对一个视频,分别使用独立的视觉字幕模型和音频字幕模型生成描述。

    2. 识别并解决“模态特有幻觉”:例如,视觉模型看到水下机器人,但不知道它在探索地球深处(音频内容);音频模型听到关于“地球内部”的旁白,但不知道画面主体是机器人(视觉内容)。

    3. 利用一个强大的 LLM(如 GPT-4)作为“裁判”,结合两种模态的初步描述,进行交叉修正和总结,生成一个准确、全面的联合字幕

    4. 基于这个高质量的联合字幕,再使用 LLM 生成相关的问答对,构成最终的训练数据。

  • 样本规模与构成:总计 24M 样本。其中,全模态数据占 15%,图像数据占 36%,声音数据占 21%,语音数据占 17%,视频数据占 11%。

2.3. 操作化与测量 (Operationalization & Measurement)

  • 核心概念操作化

    • 视觉输入 (Vision):视频被分解为图像帧,通过一个预训练的视觉编码器(SigLip)提取特征。

    • 音频输入 (Audio):原始音频波形通过一个音频编码器(来自 Audio Flamingo 3)提取声学特征。

    • 模态融合 (Fusion):上述特征嵌入在输入到 LLM 主干网络(Qwen2.5-7B-Instruct)之前,会经过本文提出的 OmniAlignNet, TEG 和 CRTE 模块进行对齐和时间编码。

  • 性能测量:模型性能通过在多个公开的多模态基准测试(Benchmark)上的得分来衡量,例如 Worldsense, Dailyomni (全模态), MMAR, MMAU (音频), Video-MME, MVBench (视频)等。得分越高,表示模型性能越好。


3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  1. 架构设计的有效性:消融研究(表1)明确证明,本文提出的 TEG, CRTE 和 OmniAlignNet 模块均对模型性能有显著的正面贡献。与基线模型相比,完整模型的平均性能提升了 7.08 个点,验证了架构设计的成功。

  2. 数据策略的优越性:实验(表2)表明,在视频理解任务中,仅仅加入音频进行隐式学习就能提升性能;而使用本文提出的数据引擎进行显式学习,能带来更大幅度的性能飞跃。这证明了其数据合成策略的有效性。

  3. 全面的 SOTA 性能:OmniVinci 在全模态、音频和视频等多个核心基准上均超越了包括 Qwen2.5-Omni 和 Gemini 在内的现有最强模型,树立了新的性能标杆。

  4. 模态协同增强推理能力:在强化学习(RL)后训练中,同时输入音频和视频的模型比只输入视频的模型收敛更快、效果更好(图6),这揭示了**“Key Insight 3”:联合音视频输入能超越纯视觉输入,带来更快更好的收敛**,证明了多模态信息对高级推理能力的增强作用。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图1:性能对比总览图 (Performance Comparison Overview)

    • 展示内容:该图直观对比了 OmniVinci (Ours) 与 Qwen2.5-Omni 等模型在六个不同基准测试上的性能得分。

    • 揭示关系:清晰地显示了 OmniVinci 在所有展示的基准上都取得了领先。尤其是在 Dailyomni 基准上,其得分 (66.5) 远超 Qwen2.5-Omni (47.45),性能优势巨大。

    • 关键数据支撑:在 Dailyomni 上 +19.05,在 MMAR 上 +1.7,在 Video-MME 上 +3.9,这些数据是论文核心成果的有力证明。

  • 表1:架构设计消融研究 (Ablation study for omni-modal alignment)

    • 展示内容:该表从一个最简单的基线模型(Token Concatenation)开始,逐步添加本文提出的 TEG、CRTE 和 OmniAlignNet 模块,并记录在三个基准上的性能变化。

    • 揭示关系:清晰地展示了“层层递进”的性能提升。每增加一个模块,平均分(Average)都在上涨:基线 45.51 -> +TEG 47.72 -> +CRTE 50.25 -> +OmniAlignNet 52.59。

    • 关键数据支撑:这个表格是本文方法论部分最核心的证据,它将模型的最终成功归因于其提出的每一个具体创新点,而不是一个无法解释的“黑箱”。

  • 图4:全模态数据引擎流程图 (Omni-modal captions generation pipeline)

    • 展示内容:该图生动地解释了数据合成的过程。它展示了仅靠视觉或仅靠音频生成的字幕存在“错误理解”,而通过 LLM 进行交叉模态修正后,可以得到“正确的全模态理解”。

    • 揭示关系:它阐明了“模态特有幻觉”这一核心问题,并展示了论文提出的解决方案。这是理解其数据创新和训练数据优势的关键。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

研究发现意味着,构建高性能全模态模型的关键路径,在于对模态间关系的精细化建模高质量数据的生成

  • 研究结果完美地回答了引言中提出的研究问题。

    • 架构层面:OmniAlignNet + TEG + CRTE 的组合拳,成功地实现了多模态信息在语义和时间维度上的深度融合。

    • 数据层面:Omni-Modal Data Engine 有效地解决了数据稀缺和质量问题。

    • 效率层面:在性能大幅超越的同时,训练成本降低了6倍,证明了该技术路线的高效性。

  • 结果中最引人注目的是在 Dailyomni 基准上超过 19 个点的巨大提升,这表明该模型在处理需要紧密时序和语义对齐的复杂音视频场景时,具有压倒性优势。

4.2. 理论贡献 (Theoretical Contributions)

  1. 扩展了多模态对齐理论:提出了一个超越简单特征映射的、基于对比学习的专用对齐网络(OmniAlignNet),为如何在共享空间中实现更鲁棒的跨模态语义对齐提供了新思路。

  2. 推进了多模态时间建模:首次将相对时间分组(TEG)和多尺度绝对时间编码(CRTE)相结合,为解决 LLMs 中的长视频时序理解难题提供了新的、更完整的技术框架。

  3. 提出了新的数据策展范式:首次明确定义并解决了“模态特有幻觉”问题,其提出的数据引擎为如何以半监督方式生成高质量、大规模的全模态指令微调数据提供了可行的范例。

论文的研究成果将给业界带来什么影响?

  • 降低SOTA全模态AI的门槛:通过开源一个性能顶尖且训练效率极高的模型,使得更多的中小企业和研究机构能够参与到全模态 AI 的研发和应用中。

  • 催生新的智能应用:其强大的音视频联合理解能力,将直接推动下游应用的发展,例如:可以听懂口头指令并导航的机器人、能结合医生口述和医学影像进行分析的医疗AI助手、能实时生成专业级解说的体育赛事转播系统等。

4.3. 实践启示 (Practical Implications)

  • 对模型开发者:提供了一份经过验证的、可复现的全模态模型构建蓝图。开发者可以借鉴其架构设计和数据处理流程,来构建自己的多模态应用。

  • 对企业管理者和政策制定者:展示了AI在更深度、更自然的人机交互方向上的巨大潜力。企业可以考虑如何将这类技术整合进产品和服务,以提升用户体验(如智能客服、虚拟助手);政策制定者则需关注其在公共服务(如辅助医疗、智能交通)中的应用前景。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性

  • 模态范围有限:研究仍局限于视觉、音频和文本,未涉及更广泛的模态,如触觉、气味、或专业的传感器数据(如雷达、脑电图)。

  • 依赖强大的教师模型:其数据引擎依赖一个已有的强大 LLM 来进行修正和合成,这本身需要很高的成本,并且合成数据的质量上限受制于该教师模型的能力。

  • 推理能力瓶颈:模型的能力最终受限于其 LLM 主干网络的规模和内在推理能力。

未来研究方向

  • 扩展到更多模态:将该框架扩展以融合更多类型的数据。

  • 提升数据合成效率:研究如何减少对昂贵教师模型的依赖,实现更高效的数据生成。

  • 端到端的联合训练:探索从头开始联合训练所有模块(包括编码器),而不是冻结它们,可能会带来进一步的性能提升。

  • 复杂推理与规划:在当前强大的感知能力基础上,进一步研究如何让模型完成更复杂的多步推理、规划和决策任务。


5. 结论 (Conclusion)

本文系统性地构建了一个名为 OmniVinci 的开源全模态大语言模型,它能够联合感知图像、视频、音频和文本。通过引入 OmniAlignNet、Temporal Embedding Grouping 和 Constrained Rotary Time Embedding 等架构创新,并结合一个新颖的数据策展流程,OmniVinci 在大幅降低训练成本的同时,在多个主流基准上取得了业界领先的性能。这项工作不仅为社区提供了一个强大的基础模型,也为未来全模态 AI 的发展提供了宝贵的设计原则和实践经验。

6. 核心参考文献 (Core References)

  1. Qwen Team. (2025). 

    • 链接

    • 这是本文最主要的比较对象和直接竞争者,代表了此前开源全模态模型的最高水平。

  2. Google. (2023). Gemini: A Family of Highly Capable Multimodal Models. arXiv.

    • 链接

    • 这是业界公认的最强大的闭源全模态模型之一,是所有相关研究的重要参照基准。

  3. Girdhar, R., et al. (2023). Imagebind: One embedding space to bind them all. In CVPR.

    • 链接

    • 该论文提出的将多种模态嵌入到同一空间的想法,是 OmniAlignNet 模块重要的思想来源。

  4. Radford, A., et al. (2021). Learning transferable visual models from natural language supervision. In ICML.

    • 链接

    • 即 CLIP 论文。其提出的对比学习方法是 OmniAlignNet 实现跨模态对齐的核心技术基础。

  5. Su, J., et al. (2024). Roformer: Enhanced transformer with rotary position embedding. Neurocomputing.

    • 链接

    • 即 RoPE 论文。本文提出的 CRTE 是对 RoPE 的一种改进和应用,用于处理绝对时间信息。

No comments: