CLIVR：一个在虚拟现实中与 AI 驱动的患者进行交互的对话式学习系统

论文信息

标题 (Title)：CLIVR: CONVERSATIONAL LEARNING SYSTEM IN VIRTUAL REALITY WITH AI-POWERED PATIENTS

作者 (Authors)：Akilan Amithasagaran, Sagnik Dakshit, Bhavani Suryadevara, Lindsey Stockton

发表年份 (Year)：2025

原文链接 (URL)：https://arxiv.org/abs/2510.19031

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：传统的医学沟通技能训练（如标准化病人 SPs 和高仿真人体模型）成本高昂、资源密集且难以规模化，限制了学习者的实践机会。本研究旨在开发并评估一个名为 CLIVR 的虚拟现实 (VR) 对话式学习系统，利用大型语言模型 (LLMs) 和 3D 虚拟形象，为医学和护理学生提供一个可扩展、沉浸式的临床沟通训练平台。

方法 (Methods)：该研究在 Unity 引擎中开发了 CLIVR 系统，并部署在 Meta Quest 3 头戴设备上。系统集成 LLMs 来扮演虚拟病人，通过一个精心策划的“综合征-症状”知识库（使用检索增强生成 RAG 技术）来确保对话的医学准确性。系统支持实时的语音识别、语音合成和唇形同步。此外，系统还集成了情感分析模块，为受训者的沟通语气提供即时反馈。研究通过一项涉及 13 名医学院教职人员的混合方法专家用户研究，评估了系统的可用性、真实感和教育价值。

结果 (Results)：用户研究结果显示，专家们对 CLIVR 系统表现出强烈的接受度（92.3% 的受访者认为将 LLM 与 VR 结合对模拟医患互动有益）。他们对使用该技术进行教学互动表现出高度意愿（Likert 量表平均分 4.00/5），并认为该系统在辅助有困难的住院医师方面有潜力（3.54/5）。然而，专家们对完全用该系统取代标准化病人持谨慎态度（2.38/5），认为它是一个有价值的补充工具而非替代品。

结论 (Conclusion)：CLIVR 系统被证实是一个有前途的、可扩展的、沉浸式的补充工具，用于临床沟通技能训练。它通过动态生成多样化的临床场景和提供即时反馈，有效弥补了传统训练方法的不足。研究结果肯定了该系统在案例学习、同理心培养和诊断推理训练方面的巨大潜力，并为未来 AI 和 VR 技术在医学教育中的整合指明了方向。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

有效的医患沟通是临床能力的核心，也是医学教育的重点。传统上，这种技能的培养依赖于标准化病人（Standardized Patients, SPs）和高仿真人体模型。然而，这些方法存在固有局限性：SPs 成本高、需要大量组织协调工作；人体模型虽然能模拟生理反应，但在模拟自然语言对话和情感互动方面能力有限。这些因素共同导致了训练机会的稀缺和场景多样性的不足，难以规模化。

随着虚拟现实 (VR) 和大型语言模型 (LLMs) 等技术的成熟，为解决上述挑战提供了新的可能性。VR 可以提供沉浸式、可重复且无风险的练习环境，而 LLMs 则能生成连贯、有上下文感知能力且富有情感的对话。

本文要回答的核心研究问题 (Research Questions, RQs) 是：
如何设计、构建并验证一个集成了大型语言模型和情感分析的沉浸式虚拟现实系统，使其能够有效地模拟真实多样的医患互动场景，并作为一种可扩展的、有教育价值的工具来训练临床沟通技能？

这是一个新的问题，因为它不仅关注技术集成，更关注如何通过特定设计（如医学知识库接地、实时情感反馈）来确保模拟的临床真实性和教育有效性。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究已经探索了 AI 驱动的虚拟导师和 VR 在医疗培训中的应用。例如，一些系统使用 AI 导师进行外科或护理培训。然而，现有工作存在以下不足：

对话系统的局限性：许多商业 VR 医疗模拟系统（如 Oxford Medical Simulation）的对话是预先编写的或基于分支叙事，缺乏动态性和灵活性。学术原型虽开始集成 AI，但多使用检索式聊天机器人，而非能进行上下文连贯、角色驱动对话的生成式 LLMs。

缺乏医学知识接地：直接使用通用 LLMs 进行医疗模拟有产生“幻觉”（即生成不符合医学事实内容）的风险。现有研究很少探讨如何将 LLM 的对话生成与可靠的医学知识库相结合来保证临床场景的准确性。

缺少实时情感反馈：虽然有研究对学习者的表现进行事后情感分析，但几乎没有 VR 医疗模拟系统能在互动过程中提供关于同理心和沟通语气的实时反馈。

本文所针对的“研究缺口”(Gap) 在于：创建一个首次将症状约束的 LLM 对话生成、实时同理心反馈（通过情感分析）和沉浸式 VR 交互相结合的医学沟通模拟器。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：

设计并实现一个名为 CLIVR 的模块化 VR 系统，该系统能够模拟动态、真实的医患对话。

通过整合一个精心策划的医学知识库，确保 LLM 生成的虚拟病人行为在临床上是合理和一致的。

集成情感分析功能，为学习者提供关于其沟通风格的即时反馈。

通过专家用户研究，评估 CLIVR 系统的可用性、真实感及其作为医学教育工具的潜力。

核心假设 (Hypotheses) (论文未明确列出，但可推断)：

H1: 一个集成了 LLM、语音处理和 3D 虚拟形象的 VR 系统，能够以低延迟（接近实时）的方式模拟流畅的医患对话。

H2: 通过检索增强生成（RAG）技术将 LLM 的回答限制在一个“综合征-症状”知识库内，可以显著提高模拟对话的医学准确性并减少内容幻觉。

H3: 医学院教员等领域专家会认为 CLIVR 系统是一个有价值的、可接受的教育工具，尤其是在补充而非取代传统训练方法方面。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用建构性研究 (Constructive Research) 和混合方法 (Mixed-method) 评估相结合的范式。首先，研究团队构建了一个名为 CLIVR 的技术系统；然后，通过包含定量和定性数据的用户研究来评估该系统。

系统架构与方法论 (见原文图 1)：
CLIVR 采用模块化的客户端-服务器 (Client-Server) 架构。

前端 (客户端)：一个基于 Unity 的 VR 应用，运行在 Meta Quest 3 独立头显上。它负责捕捉用户的语音、渲染 3D 虚拟病人（使用 Ready Player Me 创建）及其面部表情（使用 uLipSync 实现唇形同步），并播放服务器返回的音频。

后端 (服务器)：一个轻量级的 FastAPI 服务器，负责处理核心的 AI 任务，包括：

语音转文本 (Speech-to-Text)：使用 OpenAI Whisper 模型。

LLM 响应生成：使用 Gemini 2.0-Flash 模型。通过结构化的系统提示 (system prompt) 来设定病人的角色、个性和症状。利用检索增强生成 (RAG)，从一个“综合征-症状”数据库中随机抽取病例，约束 LLM 的回答，确保医学一致性。

文本转语音 (Text-to-Speech)：使用 Amazon Polly 的神经网络语音。

情感分析 (Sentiment Analysis)：在用户每轮对话后，使用一个在医疗对话数据上微调过的模型 (gemma3n) 将用户的发言分类为积极、消极或中性，以评估其同理心和沟通语气。

解决方案的关键：在于其模块化架构和知识接地 (Knowledge Grounding)。模块化架构使得计算密集型任务可以在服务器上完成，从而让系统能流畅运行在独立的 VR 头显上，大大提高了可部署性。知识接地则通过 RAG 解决了通用 LLM 在专业领域应用中的核心痛点——内容不可靠。

与之前方法的特点和优势：

动态与非脚本化：与商业系统相比，CLIVR 的对话是动态生成的，而非预设脚本，能更好地模拟真实对话的不可预测性。

可扩展与低成本：相比 SPs，该系统可以无限次重复使用，并能轻松生成数千种不同的临床情景，成本极低。

实时反馈：首次在 VR 医疗模拟中实现了实时的同理心和情感反馈，促进了学习者的即时反思。

2.2. 数据来源与样本 (Data Source & Sample)

医学知识库数据：融合了两个开源数据集：

Mendeley Disease Dataset：包含 4,961 个疾病-症状关联。

Columbia University Disease-Symptom Knowledge Base：包含 134 个从出院小结中提取的关联。
合并后形成一个包含 5,095 个“综合征-症状”对的知识库，用于生成临床病例。

情感分析模型训练数据：使用了 GoEmotions 数据集（一个包含 58,009 条 Reddit 评论的通用情感语料库）对 BERT 系列模型进行微调，并使用 LLM 生成的 1,500 条模拟医生话语作为领域特定的基准测试集。

用户研究样本：招募了 18 名德克萨斯大学泰勒分校的医学院教职人员，其中 13 人完成了整个研究和调查问卷。

2.3. 操作化与测量 (Operationalization & Measurement)

定量测量：

系统延迟：测量了语音识别、LLM 生成、语音合成和情感分析四个模块的平均处理时间，总延迟约为 1.35 秒。

情感分析模型性能：使用准确率、精确率、召回率和 F1 分数在基准测试集上评估了 7 个不同的分类器。

用户调查：采用包含 21 个项目的问卷，其中 Likert 量表问题（1=非常不同意, 5=非常同意）用于评估用户在多个维度上的看法，如：使用技术的信心、对 AI 工具的舒适度、使用意愿等。

定性测量：

问卷中的开放式问题收集了参与者对系统优点、缺点和改进建议的详细文字反馈。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

高接受度和积极态度：绝大多数（92.3%）专家参与者认为，将 LLM 与 VR 结合对于模拟医患互动是有益的。他们对使用 CLIVR 进行教学表现出强烈意愿（平均分 4.00/5）。

定位为补充工具，而非替代品：尽管专家们热情很高，但他们对用 CLIVR 完全取代传统的 SPs 持保留态度（平均分 2.38/5），这表明他们认为该技术是现有教学方法的有力补充，而非替代。

技术可行性得到验证：系统实现了约 1.35 秒的平均回合延迟，这在对话式应用中是可接受的，保证了交互的自然流畅。情感分析模型（gemma3n）在性能和效率之间取得了良好平衡。

教育价值得到认可：定性反馈中，专家们称赞该系统在历史采集、沟通评估等方面的应用价值，认为沉浸式环境和 AI 驱动的对话能让临床技能训练更具互动性和吸引力。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1: CLIVR 应用的端到端系统架构 (End-to-end system architecture of the CLiVR application)

内容解读：该图清晰地展示了 CLIVR 系统的工作流程。从左侧用户（医生）在 VR 中说话开始，语音被麦克风捕捉，发送到服务器进行语音转文本、LLM 处理（结合系统提示、症状列表和对话历史）、情感分析，然后服务器将生成的文本转换为语音，传回 VR 应用，驱动虚拟病人（角色）说话并同步嘴型。

揭示关系：此图直观地揭示了系统的模块化设计和前后端的分工，是理解其技术实现的核心。它说明了 AI 计算与 VR 渲染是如何解耦，从而实现高性能和高可部署性的。

表 2: Likert 量表项目的描述性统计 (Descriptive Statistics for Likert-Scale Items)

内容解读：该表列出了用户研究中几个核心问题的平均分、中位数和标准差。

揭示关系：数据显示了用户态度的复杂性。一方面，用户对技术本身和用它来教学持非常积极的态度（“Confidence using technology for learning” M=4.08，“Likelihood to use for teaching interactions” M=4.00）。另一方面，他们对技术取代人类角色（“Likelihood to replace simulated patients” M=2.38）持怀疑态度。

关键数据支撑：4.00/5 的高分和 2.38/5 的低分形成了鲜明对比，精准地将 CLIVR 定位为一个强大的辅助和补充工具，而非一个颠覆性的替代方案。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

研究结果表明，AI+VR 技术在医学教育领域已经越过了“技术玩具”的阶段，进入了被领域专家认可为具有实际教育潜力的阶段。专家们的热情源于该技术解决了传统教学方法在可扩展性、成本和场景多样性方面的痛点。而他们的谨慎则反映了对医学教育中“人”的因素的珍视——AI 尚无法完全复制真实人类互动的微妙之处和情感深度。因此，CLIVR 的最佳定位是作为一种“训练模拟器”，让学生在进入真实临床环境或与昂贵的 SPs 互动前，进行大量、多样化、无风险的练习。

4.2. 理论贡献 (Theoretical Contributions)

对医学教育领域的贡献：本研究提供了一个新颖的、经过专家验证的医学沟通训练范式。它展示了如何将前沿 AI 技术安全有效地整合到教育实践中，为未来开发更智能、更个性化的医学模拟系统提供了蓝图。

对人机交互 (HCI) 领域的贡献：CLIVR 是一个在特定领域（医疗）成功应用生成式 AI 进行角色扮演的范例。它通过知识接地 (RAG) 和实时情感反馈机制，展示了如何提升对话式 AI 在高风险、需要同理心场景中的可靠性和实用性。

对业界的影响：这项研究为商业医疗模拟产品指明了下一代的发展方向，即从基于脚本的交互转向基于生成式 AI 的动态对话。它也为 Meta、Apple 等 VR 平台厂商展示了其硬件在专业教育领域的杀手级应用潜力。

4.3. 实践启示 (Practical Implications)

对医学教育者：可以引入类似 CLIVR 的工具，为学生提供标准化的、可重复的沟通技能练习平台，尤其适用于难以安排真人 SPs 的场景（如罕见病、敏感话题沟通等）。

对学生：可以在一个安全的环境中反复练习，直到建立足够的信心，从而更好地为真实的临床实践做准备。

对系统开发者：该研究的模块化架构、知识接地方法和实时反馈机制可以被借鉴到其他需要专业知识和人际技巧的培训领域，如法律咨询、客户服务、危机谈判等。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：

样本规模小且单一：用户研究的参与者（n=13）数量有限，且均来自同一所大学，可能影响结果的普适性。

缺乏对照组：研究侧重于可行性和接受度，并未设置对照组（如与传统 SPs 或无 AI 的 VR 系统进行比较），因此无法得出关于学习效果的结论。

技术仍有提升空间：用户反馈指出，系统的响应延迟、语音自然度和虚拟形象的表现力仍有待改进。

未来研究：

开展大规模、多中心的对照试验，以严格评估 CLIVR 对学生学习成果的实际影响。

丰富临床场景，集成更多模态的数据（如生命体征、实验室检查结果），使模拟更加全面和真实。

增强虚拟病人的多样性，纳入更多不同的文化、语言背景和沟通风格，以培养学生的文化胜任力。

持续优化技术，降低延迟，提升 AI 生成语音和虚拟形象表情的自然度。

5. 结论 (Conclusion)

CLIVR 是一个创新的沉浸式 VR 系统，它成功地利用大型语言模型、检索增强生成和实时情感分析，为医学教育提供了一个能模拟真实医患互动的平台。通过与医学院教员的专家用户研究，该系统在增强沟通训练、真实感、可用性和教育价值方面显示出巨大潜力。尽管不能完全替代标准化病人，但 CLIVR 作为一种可扩展、互动性强的学习工具，有力地补充了传统训练方法。随着 AI 和 VR 技术的不断进步，此类系统有望变得更加普及、一致和富有情感响应，为培养下一代医疗专业人员做出重要贡献。

6. 核心参考文献 (Core References)

Kenny, P. G., et al. (2024). Virtual standardized llm-ai patients for clinical practice. Annual Review of Cybertherapy And Telemedicine 2024, page 177, 2024.

(一篇直接相关的文献，探讨了使用 LLM-AI 扮演虚拟标准化病人，是本研究的直接前驱工作之一。)

Maslych, M., et al. (2025). Takeaways from applying llm capabilities to multiple conversational avatars in a vr pilot study. arXiv preprint arXiv:2501.00168, 2025.

(本文引用了该研究关于 VR 中多虚拟形象交互界面设计的经验，特别是在状态指示器方面。)

Mergen, M., et al. (2023). Immersive training of clinical decision making with ai driven virtual patients-a new vr platform called medical tr. ai. ning. GMS Journal for Medical Education, 40(2):Doc18, 2023.

(提供了另一个 AI 驱动的 VR 医疗培训平台案例，是本研究领域内的重要相关工作。)

Dietrich, N., et al. (2025). Prompt engineering for large language models in interventional radiology. American Journal of Roentgenology, 2025.

(支持了本研究 LLM 方法论的核心——通过精心的提示工程来引导模型进行特定角色的扮演。)

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.