Digital Health Insider: 生成式AI在人类医学基因组学中应用的系统性综述

论文信息

标题 (Title)：A SYSTEMATIC REVIEW ON THE GENERATIVE AI APPLICATIONS IN HUMAN MEDICAL GENOMICS
作者 (Authors)：Anton Changalidis, Yury Barbitoff, Yulia Nasykhova, Andrey Glotov
发表年份 (Year)：2025
原文链接 (URL)：https://arxiv.org/abs/2508.20275v1

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：传统的统计和机器学习方法在处理复杂、高维度的遗传学数据时常遇到困难，而基于 Transformer 架构的大型语言模型 (LLM) 在需要上下文理解的非结构化医疗数据任务中表现出色。本系统性综述旨在审视 LLM 在罕见和常见遗传性疾病的研究与诊断中的作用。
方法 (Methods)：研究人员根据 PRISMA 2020 指南，对 PubMed、bioRxiv、medRxiv 和 arXiv 数据库进行了自动化的、基于关键词的搜索。搜索目标是关于 LLM 在遗传学诊断和教育中应用的研究，并排除了不相关或使用过时模型的文章。最终，共有 172 篇研究被纳入分析。
结果 (Results)：分析结果表明，基于 Transformer 的模型在疾病和风险分层、变异解读、医学影像分析以及报告生成方面取得了显著进展。LLM 的应用已渗透到诊断流程的各个阶段：
分析前（知识导航、风险分层）、分析中（医学影像分析、变异效应分析、临床变异解读）和分析后（患者聚类、报告生成）。
结论 (Conclusion)：尽管 LLM 正在改变遗传病诊断学，但在将多模态数据（基因组序列、影像、临床记录）整合到统一且临床稳健的流程中仍存在重大挑战，并在临床环境中的泛化性和实际应用方面面临限制。本综述为理解这一快速发展领域提供了全面的分类和评估。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

研究背景：机器学习，特别是深度学习，已经克服了传统方法在处理高维、复杂数据方面的许多限制。2017年引入的 Transformer 模型通过其注意力机制，彻底改变了自然语言处理等领域，能够有效捕捉长程依赖关系，这在医疗保健和基因组学中至关重要。这催生了大型语言模型 (LLM)，它们在多种任务中表现出色，并可通过微调适应特定领域。
核心研究问题：遗传病的诊断流程通常分为分析前、分析中和分析后三个阶段，每个阶段都涉及复杂的数据处理和解读。虽然 LLM 在这些领域具有巨大潜力，但其应用现状、具体效用以及面临的挑战尚未得到系统性的梳理。
是否是新问题：这个问题并非全新，但作者指出，现有的相关综述或局限于特定模型（如ChatGPT）、或过于宽泛而缺乏对遗传学诊断的关注、或没有系统性地进行文献筛选，导致内容过时或不够全面。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究：作者回顾了多篇关于 AI 在医疗或遗传学中应用的综述。他们发现，这些综述存在一些局限，例如：
- 一些综述仅关注 ChatGPT，缺乏系统性分析，因此很快过时。
- 一些综述范围过广（如 LLM 在整个医疗保健领域的应用），未能深入遗传学诊断。
- 另一些综述则过于狭窄，仅限于特定疾病（如痴呆、肿瘤学），且未明确强调基于 Transformer 的模型。
研究缺口：本综述明确指出的研究缺口是，当前缺乏一篇专门针对 Transformer 模型和生成式 AI 在遗传病研究与诊断中应用的系统性、全面的综述。通过同时覆盖同行评议的期刊（PubMed）和最新的预印本库（arXiv, bioRxiv, medRxiv），本研究旨在填补这一空白，提供对该领域最新进展的系统性洞见。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：本研究旨在系统性地回顾近年来 Transformer 模型和生成式 AI 在遗传病研究与诊断中的应用。具体目标是：
1. 提供一个关于 LLM 如何改变遗传病诊断流程中分析前、分析中和分析后各个阶段的系统性见解。
2. 评估类 GPT 模型在临床和研究环境中的表现，审视其有效和有问题的实践。
3. 为研究人员和从业者提供一份结构化的概述，帮助他们 navigating 这个快速发展的领域。
核心假设/命题：本综述的核心观点是，LLM 正在深刻地改变遗传数据处理、诊断和个性化医疗的模式。通过系统性地分类和评估其应用，可以揭示当前的能力、挑战和未来方向，从而为开发更可靠、更值得信赖的临床工具奠定基础。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

研究范式：本研究是一篇遵循 PRISMA 2020 指南的系统性文献综述 (Systematic Review) 。
方法论：研究采用了一个多阶段、半自动化的文献筛选流程，如图1所示：
1. 初始搜索：使用覆盖 LLM 和遗传学/医学两大类别的关键词，在 PubMed、bioRxiv、medRxiv 和 arXiv 四个数据库中进行广泛搜索，共识别 57,558 篇记录。
2. 自动化筛选：通过脚本自动去重，并将数据集缩减至 51,613 篇文章。随后进行初步语义分析，要求文章必须同时包含 LLM、临床和遗传学三类关键词，将记录数筛选至 576 篇。
3. 手动筛选与分类：由两名研究员协同进行手动去重，并将剩余的 550 篇文章分为“不相关”、“部分相关”和“完全相关”三类。最终确定了 181 篇部分相关和 123 篇完全相关的文章。
解决方案之关键：本研究的关键在于其系统性和全面性。通过遵循 PRISMA 指南并结合自动化与严格的人工筛选，确保了文献选择的透明度和可重复性。同时，覆盖预印本数据库的做法确保了对这个快速发展领域的前沿技术（这些技术通常先于同行评审发表）的捕捉。
与之前方法的特点和优势：作为一篇系统性综述，其优势在于方法论的严谨性。它不像非系统性综述那样随意挑选文献，而是有一个明确的、可重复的筛选标准，从而减少了选择偏见。此外，由两名研究员协商处理模糊案例的做法也增强了筛选结果的可靠性。

2.2. 数据来源与样本 (Data Source & Sample)

数据来源：本综述的数据来源于四个主要的科学数据库：PubMed、bioRxiv、medRxiv 和 arXiv 。
样本：搜索时间范围为 2023年、2024年和2025年1月，以确保研究的时效性。经过严格的筛选流程后，最终确定的分析样本池包含 304 篇文章（181 篇部分相关，123 篇完全相关）。在撰写综述时，最终使用了其中的172 篇文章（49 篇部分相关，123 篇完全相关）。

2.3. 操作化与测量 (Operationalization & Measurement)

操作化：本研究的核心操作化步骤是将遗传病诊断流程分解为三个主要阶段：分析前 (Pre-analytics)、分析中 (Analytics) 和 分析后 (Post-Analytics) 。每个阶段又被进一步细分为具体的任务（例如，分析前阶段包括“知识导航与文献回顾”和“风险分层”）。
测量：综述通过统计每个类别中包含的文章数量来“测量”不同应用领域的研究热度。例如，分析阶段共有 53 篇文章，是研究最多的阶段；分析前阶段有 51 篇，分析后阶段有 29 篇。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

本综述系统地描绘了 LLM 在人类遗传病诊断三个阶段中的具体应用，如图3所示。

分析前阶段 (Pre-analytical stage) ：
- 知识导航与文献回顾：LLM 被广泛用于从文献和电子健康记录 (EHR) 中提取结构化知识，如基因-表型关系，以及用于医学问答。BERT 类编码器模型在提取任务中占主导地位，但 GPT 类解码器模型也越来越多地被用于此类任务。
- 风险分层：Transformer 模型通过分析临床笔记、家族史和多模态数据来评估个体遗传易感性和识别高风险患者群体。
分析中阶段 (Analytical stage) ：
- 医学影像分析：Vision Transformers (ViT) 被用于识别影像（如MRI、WSI）中的结构异常，评估遗传风险（如通过面部图像分析识别罕见遗传综合征），甚至直接从图像中预测基因突变或核型。
- 变异效应分析：模型用于分析原始 DNA 序列，预测遗传变异对蛋白质、调控和药物反应的功能性后果，以及建模复杂的基因型-表型关系。
- 临床变异解读：LLM 帮助识别和分类致病变异，并根据表型证据对变异或基因进行优先级排序。
分析后阶段 (Post-analytical stage) ：
- 患者聚类与亚型划分：Transformer 模型通过整合影像、文本和临床数据来对患者进行分层或识别疾病亚型。
- 结果整合与报告生成：LLM 用于自动化生成用户友好的基因组报告，并为临床决策提供支持。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

图 1: 文章搜索与筛选流程图
- 内容解读：该图遵循 PRISMA 指南，详细展示了从最初的 57,558 篇文献记录到最终纳入综述的 172 篇文章的完整筛选过程。
- 关键数据：图表清晰地量化了每个筛选步骤的结果，例如，在初步语义分析后，记录数从 51,613 锐减至 576，显示了自动化筛选的有效性。最终，仅有 123 篇文章被分类为“完全相关”，突显了该领域研究的高度集中性。
图 3: LLM 在人类遗传病研究与诊断中的应用图
- 内容解读：这是本综述的核心成果图，它将 LLM 的应用系统地映射到了遗传病诊断的三个核心阶段（分析前、分析中、分析后），并对每个阶段内的具体任务进行了细分。
- 揭示的关系：该图直观地展示了 LLM 已经渗透到诊断工作流的每一个环节。例如，在“分析中”阶段，它展示了 LLM 如何处理从影像到 DNA 序列等不同类型的输入数据，并执行从“识别结构异常”到“识别致病变异”等不同层次的任务。
表 1: 文章在各章节和应用领域的分布
- 内容解读：该表量化了图3中描述的应用领域的研究热度，显示了172篇被引文献在不同主题下的分布情况。
- 关键数据：知识导航与文献回顾是研究最多的子领域（40篇文章），而患者聚类与亚型划分则相对较少（7篇文章）。这表明当前 LLM 在遗传学中的应用更侧重于信息提取和组织，而非更下游的临床决策任务，尽管后者也在发展中。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

作者在讨论部分对 LLM 应用的策略进行了深入解读。关键观点包括：
- 架构选择至关重要：BERT 类模型擅长信息提取（如命名实体识别），而 GPT 类模型更适合生成任务（如摘要、对话）。研究中存在解码器模型被用于提取任务的次优情况。
- 提示工程非常关键：基于检索增强生成 (RAG) 的系统通过在生成前检索实时证据，可以提高事实的一致性，减少对模型内部陈旧知识的依赖。
- 训练策略比预训练更重要：近期研究表明，训练策略（如混合训练）在决定模型性能方面可能比领域特定的预训练更关键，混合训练能帮助模型避免过拟合，同时增强记忆和灵活性。

4.2. 理论贡献 (Theoretical Contributions)

本综述的主要贡献在于为“LLM在人类医学基因组学中的应用”这一新兴交叉领域提供了首个系统性的、结构化的知识图谱。通过提出并应用“分析前-中-后”三阶段诊断流程的分类框架，它将大量分散的研究工作组织成一个连贯的、有逻辑的体系，清晰地揭示了该领域的技术现状、研究热点和未来方向。

4.3. 实践启示 (Practical Implications)

对生物信息学家和遗传学家：本综述为不同专业角色的从业者指明了 LLM 的潜在应用场景。例如，临床遗传学家可以利用 LLM 辅助文献检索和证据发现；实验室遗传学家可以利用其简化变异分类和报告自动化；生物信息学家则可以利用其进行知识提取和多模态数据整合。
对模型开发者：综述提供了关于模型选择（BERT vs. GPT）、提示策略（RAG）和训练方法（混合训练）的实践建议，有助于开发者在具体应用中做出更优的技术决策。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：
1. 预印本的偏见风险：综述包含了大量未经同行评审的预印本文章，这虽然能捕捉最新进展，但也带来了研究结果未经充分验证的风险。
2. 范围局限：综述专注于遗传病诊断，可能忽略了来自更广泛 AI 领域的、但可能适用于此领域的通用模型或方法。
未来研究（在结论中提及）：尽管取得了巨大进步，但广泛的临床部署仍面临重大挑战，包括：
1. 确保可解释性与透明度 。
2. 减轻算法偏见 。
3. 保障患者安全 。
4. 实现全面的多模态推理 。

5. 结论 (Conclusion)

本综述详细阐述了基于 Transformer 的模型在人类遗传病研究与诊断的各个关键任务中所取得的重大进展，包括基因变异的识别、注释和解读，以及从非结构化文本中提取数据和通过 ViT 进行医学影像分析。这些工具不仅在诊断流程中发挥作用，还对临床遗传学家、实验室遗传学家和生物信息学家等不同专业角色具有支持潜力。尽管该领域发展迅速，本综述提供了一个结构化的概述，可作为研究者和实践者在该领域导航的分类器和指南。

6. 核心参考文献 (Core References)

Vaswani, A., et al. (2023). Attention is all you need.
- 这是 Transformer 架构的奠基之作，是本综述所讨论的所有模型的技术基础。
Devlin, J., et al. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding.
- BERT 模型的原始论文，是综述中反复提到的编码器（encoder-only）模型的代表。
Radford, A., et al. (2018). Improving language understanding by generative pre-training.
- GPT 模型的开创性论文，是解码器（decoder-only）模型的代表，也是当前生成式 AI 浪潮的起点。
Barbitoff, Y. A., et al. (2024). Bioinformatics of germline variant discovery for rare disease diagnostics: current approaches and remaining challenges. Briefings in Bioinformatics.
- 这篇文献被引用来阐述遗传病诊断的流程，为本综述的“分析前-中-后”核心分析框架提供了背景和依据。
Duong, D. and Solomon, B. D. (2025). Artificial intelligence in clinical genetics. Eur J Hum Genet.
- 这篇文献被作者认为是主题最接近的综述，但指出其在 LLM 和 Transformer 方面的深度不足，从而凸显了本系统性综述的必要性和贡献。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

生成式AI在人类医学基因组学中应用的系统性综述

论文信息

结构化摘要 (Structured Abstract)

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

2.2. 数据来源与样本 (Data Source & Sample)

2.3. 操作化与测量 (Operationalization & Measurement)

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

4.2. 理论贡献 (Theoretical Contributions)

4.3. 实践启示 (Practical Implications)

4.4. 局限性与未来研究 (Limitations & Future Research)

5. 结论 (Conclusion)

6. 核心参考文献 (Core References)

No comments: