FEAT：一个基于领域自适应大语言模型、用于自动化死亡原因分析的多智能体法医AI系统

论文信息

标题 (Title)：FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis
原文链接 (URL)：https://arxiv.org/abs/2508.07950v1

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：法医病理学在全球范围内面临着从业人员短缺和诊断标准不一的系统性挑战，这一问题在中国等案件量庞大的法医体系中尤为突出。本研究旨在开发一个名为 FEAT (ForEnsic AgenT) 的多智能体人工智能（AI）框架，通过一个针对法医领域进行深度优化的（domain-adapted）大语言模型，实现死亡调查的自动化和标准化。
方法 (Methods)：FEAT 采用了一个面向应用的多智能体架构，包含四大核心组件：(i) 负责任务分解的中央规划器 (Planner)，(ii) 负责具体证据分析的本地求解器 (Local Solvers)，(iii) 用于迭代优化的记忆与反思 (Memory & Reflection) 模块，以及 (iv) 负责结论整合的全局求解器 (Global Solver) 。该系统融合了工具增强推理、分层检索增强生成 (H-RAG)、法医专用大语言模型（Forensic-LLM）以及“人在回路” (Human-in-the-loop) 的反馈机制，以确保其分析结论在法律和医学上的有效性。研究团队为此构建了一个包含7,748例案件的中文法医语料库进行训练和评估。
结果 (Results)：在对来自中国多个地区的案件队列进行的评估中，FEAT 在生成长篇幅的尸检分析报告和精简的死亡原因结论方面，均显著优于现有的先进AI系统（如MedAgent, GPT-40等）。该系统在六个不同地理区域展现出强大的泛化能力，并在专家的盲审验证中取得了高度一致性。资深法医病理学家认为，FEAT 生成的报告质量与人类专家相当，甚至在识别细微证据方面表现更佳。
结论 (Conclusion)：据作者所知，FEAT是首个专用于法医领域的、基于大语言模型的AI智能体系统。它为死亡鉴定提供了一种可扩展、一致性高的解决方案，同时保持了专家级的严谨性，有望在缓解法医系统人力资源严重不足的同时，推动可靠法医服务的普惠化。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

研究背景：法医病理学在司法和公共卫生中扮演着至关重要的角色。然而，该领域正面临全球性的严峻挑战，尤其在中国，约1.2万名注册法医需要服务超过14亿人口，导致从业者 caseload（年均尸检量）远超国际推荐的250例上限，这不仅影响了准确性，也延误了司法程序。
核心问题 (RQs)：
1. 人力短缺与超负荷工作：法医专家严重不足，导致工作积压和效率低下。
2. 分析的复杂性：死亡原因的判定需要综合分析尸检、毒理学、病史、犯罪现场等多源异构证据，对专业技能要求极高。
3. 质量不均：不同地区，特别是资源匮乏地区，法医鉴定的质量存在显著差异，导致结论不一致。
  这些系统性压力凸显了利用人工智能（AI）开发计算解决方案的迫切需求。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究：早期的法医AI系统功能单一，无法进行全面的案例评估。尽管最新的大型语言模型（LLMs）和AI智能体（如MedAgent）在通用医疗领域展现了巨大潜力，但它们存在明显不足：(1) 主要针对普通医疗场景，而非高度专业化的法医领域；(2) 依赖于未经法医语料（特别是中文语料）训练的通用LLMs (如GPT-4, Claude)，可能产生表面看似合理但事实错误的“幻觉” ；(3) 缺乏调用外部专业工具进行事实核查的能力。
研究缺口 (Gap)：当前市场亟需一个专为自主进行死亡原因分析而设计的AI智能体系统 。该系统必须深度整合法医学领域的专业知识，具备工具增强的推理能力，并能适应本土化（如中国）的法医实践。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：开发并验证一个名为 FEAT 的多智能体AI系统，用于自主进行法医死亡原因分析和决策支持。同时，构建首个全面的中文法医语料库以支持该系统的开发和评估。
核心假设/命题：一个模仿人类专家团队协作模式的、模块化的多智能体架构，通过结合领域自适应LLM、工具使用和自我反思机制，其在法医分析的准确性、一致性和可靠性上，将超越单一的、通用的LLM或为普通医疗设计的AI智能体。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

研究范式：本研究为定量研究，通过设计、构建并严格评估一个新的人工智能系统来验证其有效性。
方法论：FEAT的核心是一个模拟法医调查团队工作流程的多智能体框架。其关键解决方案是一个由四大组件构成的迭代式推理循环：
1. 规划器 (Planner)：如同首席法医，接收案例后，使用思维链 (Chain-of-Thought, CoT) 将复杂的分析任务分解为一系列结构化的子任务。
2. 本地求解器 (Local Solvers)：扮演不同领域的专家（如尸检分析师、毒理学分析师），采用ReAct (Reasoning and Acting) 范式，将LLM的推理与调用外部工具（如查询医学数据库、专业网站）相结合，完成各个子任务。
3. 记忆与反思 (Memory & Reflection)：所有本地求解器的中间结论都会被存入一个中央记忆模块。同时，反思机制会批判性地评估这些结论的完整性和一致性，若发现矛盾或缺漏，则会触发规划器重新规划，形成一个自我纠正的闭环。
4. 全局求解器 (Global Solver)：在所有证据经过验证后，该模块利用分层检索增强生成 (Hierarchical RAG, H-RAG) 技术从案例库中检索相似案例和权威参考文献，并调用一个经过法医领域微调的Forensic-LLM，生成最终的、符合法庭标准的分析报告和结论。
与之前方法的特点和优势：
- 高度专业化：与MedAgent等通用医疗智能体不同，FEAT专为法医领域设计，其核心LLM（Forensic-LLM）经过了特定领域数据的微调。
- 透明的推理过程：通过CoT、ReAct和详细的日志，FEAT的每一步推理都有迹可循，满足了法医学对可解释性的严格要求，这与传统“黑箱”AI模型形成鲜明对比。
- 自我纠正能力：独特的“记忆与反思”模块形成了一个迭代优化的循环，使其能够主动发现并修正错误，显著提升了分析的可靠性。
- 事实接地：通过工具使用和H-RAG，FEAT的结论始终基于外部权威知识源和真实案例，有效抑制了LLM的“幻觉”问题。

2.2. 数据来源与样本 (Data Source & Sample)

数据来源：研究团队从中国六家顶尖法医机构（包括西安交通大学、中山大学、河北医科大学等）收集了共计7,748份死亡调查记录，构建了一个大规模的中文法医语料库。
样本特征：每份记录都包含多源证据，如死者个人信息、案情摘要、生前临床发现、完整的尸检报告（大体和组织病理学）、毒理学检测结果以及专家撰写的长篇分析和简短结论。
数据处理：所有案例根据国家法医病理学教科书和指南被标注为15个常见的死亡原因类别。经过AI初筛和资深法医专家复核，最终筛选出5,068个高质量案例，并按80%/20%的比例随机划分为训练集和测试集。

2.3. 操作化与测量 (Operationalization & Measurement)

核心评估任务：模型性能通过两个核心指标来衡量：(1) 长篇分析 (Long-Form Analysis, LFA) 的质量，评估其推理的全面性和连贯性；(2) 短篇结论 (Short-Form Conclusion, SFC) 的准确性，评估其诊断的精确度。
量化指标：采用 OPENAI-score 作为主要量化指标。该分数通过计算模型输出和专家参考答案的文本嵌入（使用text-embedding-3-large模型）之间的余弦相似度得出，分数越高代表与专家意见的语义一致性越强。
专家评估：邀请了四位拥有超过20年经验的国家级法医专家进行人工评估。评估方式包括：(1) 盲审成对比较，将FEAT（有/无人类干预）的输出与原始专家报告进行对比；(2) 精细化单项评分，根据8项法医有效性标准对FEAT的输出进行打分。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

性能全面超越基线模型：在15个死亡原因类别中，FEAT在长篇分析（LFA）和短篇结论（SFC）上的表现均显著优于MedAgent、Claude 3.5-Sonnet和GPT-40 。在LFA任务中，FEAT在11个类别中取得统计学显著优势；在SFC任务中，则在所有15个类别中均取得统计学显著优势。
强大的地理泛化能力：在来自中国六个不同省份的独立测试队列中，FEAT始终保持领先地位，证明其能适应不同地区的文档风格和术语，具备在全国范围内部署的潜力。
专家高度认可：在盲审中，专家认为FEAT的输出质量与人类专家相当甚至更高。特别是加入“人在回路”后，FEAT在“反映法医共识”、“法医推理”等高质量指标上优于独立FEAT和原始专家报告，同时在“不准确信息”、“关键信息遗漏”等风险指标上表现更佳。
架构设计的有效性：消融研究证实了FEAT各项设计的必要性。工具整合、4步推理深度和领域自适应的LLM（其中微调后的DeepSeek模型表现最佳）被证明是实现最优性能的关键组合。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1: FEAT系统概览与数据流 (Overview of the FEAT system and data)
- 解读：该图是理解FEAT工作机制的核心。左侧展示了系统处理的多源异构输入数据（如基本信息、病理报告、毒理学报告）。中间部分详细描绘了从
  Planner任务分解，到Local Solver通过ReAct循环使用工具进行推理，再到Reflection & Memory模块进行审核与存储，最终由Global Solver结合H-RAG和Forensic-LLM生成报告的完整流程。这清晰地展示了一个高度结构化、可追溯的AI推理过程。
图 3 & 4: LFA和SFC性能对比 (LFA and SFC performance across 15 cause-of-death categories)
- 解读：这两组条形图直观地展示了FEAT（蓝色条）在15个死亡原因类别上，相较于三个基线模型（MedAgent、Claude、GPT-40）的OPENAI-score。在几乎所有类别中，FEAT的得分都显著高于其他模型，尤其是在SFC任务（图4）中，优势更为明显，表明其在提供精准、合法理结论方面的卓越能力。
图 6: 专家对FEAT输出质量和安全性的评估 (Expert appraisal of FEAT answer quality and safety)
- 解读：此图展示了人工评估结果。上方面板的成对比较显示，经过人类干预的FEAT（FEAT_with_human，青色条）在高质量指标上表现最佳，在风险指标上风险最低。下方面板的单项评分显示，独立FEAT的输出在“法医案例理解”、“遵守法医标准”等方面绝大多数被评为“完全适用/存在”（橙色条），而在“不准确内容”、“偏见”等风险项上绝大多数被评为“完全没有/不适用”（黄色条），证明了其输出的高质量和低风险。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

FEAT的成功验证了其核心设计理念：一个模拟人类专家“会诊”的多智能体协作框架，能有效克服单一通用LLM在处理高风险、专业化任务时的局限性。系统的规划分解能力、基于事实的工具调用能力和迭代式的自我修正能力，共同构成了其强大性能的基础。它系统性地解决了法医实践中长期存在的 caseload过重、地区质量不均、证据整合复杂和过程不透明等四大难题。

4.2. 理论贡献 (Theoretical Contributions)

推动AI从“问答”走向“解决问题”：FEAT将AI的应用从静态的知识问答推向了动态、高风险的完整问题解决，为如何在专业领域安全、有效地部署LLM提供了范例。
开创法医AI新范式：本研究首次将多智能体辩论、工具增强和迭代式自我修正等前沿AI技术应用于法医学，创建了一个可被读取、审计和辩护的“白盒”推理管道，超越了传统基于分类器或NLP片段提取的法医AI系统。
提供了多智能体系统在专业领域的应用蓝图：FEAT的架构设计（如Planner, Solver, Reflection等模块的分工协作）为其他需要深度专业知识和高可靠性的领域（如临床决策、法律分析）提供了可借鉴的模式。

4.3. 实践启示 (Practical Implications)

提升法医工作效率与质量：FEAT可作为一个专家级的决策支持系统，在10分钟内生成高质量的报告初稿，极大缩短了文书工作时间，使专家能专注于更复杂的案件。
促进法医鉴定标准化：通过提供标准化的分析流程，FEAT有助于弥合地区间的质量鸿沟，使经验不足的检验人员也能达到资深专家的诊断准确度。
作为培训辅助工具：其透明的、符合专家逻辑的推理过程，可以作为一种教学辅助工具，帮助培训初级法医人员。

4.4. 局限性与未来研究 (Limitations & Future Research)

本土化限制：当前系统主要针对中文环境和中国法律标准进行优化，其在其他语言或法律体系下的表现有待验证。
人类监督的必要性：由于法医鉴定的高风险性，尽管FEAT准确率高，但仍需人类专家进行最终验证，以确保可靠性和公信力。
法律准入问题：系统尚未满足在中国作为法庭证据或用于签署死亡证明的严格法律要求，需要进一步的实地试验和可能的法规改革。
可解释性挑战：尽管推理过程有记录，但多智能体交互的复杂性可能掩盖分析中的一些微妙缺陷。
未来研究方向：包括进行跨语言和跨司法管辖区的微调、嵌入更强的安全护栏和验证协议、开发针对法医推理的可解释性AI技术，以及建立严格的偏见检测流程。

5. 结论 (Conclusion)

FEAT成功地在法医学和人工智能之间架起了一座桥梁，证明了精心设计的多智能体系统——通过整合领域自适应、工具增强和记忆机制——能够在复杂的专业任务中达到接近专家的水平。对于法医病理学，它解决了专家资源可扩展性和流程一致性的关键挑战；对于AI社区，它为在其他高风险领域部署语言模型提供了一个有效的框架。尽管存在局限性，需要谨慎整合，但FEAT的成果确立了其作为法医调查中革命性辅助工具的巨大潜力。

6. 核心参考文献 (Core References)

Tang X, et al. (2023). Medagents: Large language models as collaborators for zero-shot medical reasoning.
(这是FEAT进行比较的一个关键的AI智能体基线模型。)
Yao S, et al. (2023). React: Synergizing reasoning and acting in language models.
(这是FEAT中“本地求解器”所采用的核心推理范式的基础论文。)
Yao S, et al. (2023). Tree of thoughts: Deliberate problem solving with large language models.
(这是FEAT中“规划器”进行任务分解的理论基础之一。)
Zhou P, et al. (2024). Self-discover: Large language models self-compose reasoning structures.
(这是FEAT中“规划器”自主选择关键推理步骤的设计灵感来源。)
Lewis P, et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks.
(这是检索增强生成（RAG）的奠基性工作，FEAT将其发展为分层RAG。)

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.