MDD-LLM：迈向用于重度抑郁症诊断的高准确度大型语言模型

重度抑郁症（MDD）影响全球超过3亿人，突出一个重要的公共卫生问题。然而，医疗资源分布不均和诊断方法的复杂性导致许多国家和地区对这种疾病关注不足。本文介绍了一种名为MDD-LLM的高性能MDD诊断工具，一个人工智能驱动的框架，利用微调的大型语言模型（LLMs）和大量的真实世界样本来解决MDD诊断中的挑战。具体来说，我们从英国生物银行队列中选择了274,348份个体记录，并设计了一种表格数据转换方法，以创建一个用于训练和评估所提出方法的庞大语料库。为了说明MDD-LLM的优势，我们进行了全面的实验，并在多个评估指标下提供了与现有基于模型的解决方案的比较分析。实验结果表明，MDD-LLM (70B) 达到了0.8378的准确率和0.8919的AUC（95% CI: 0.8799 - 0.9040），显著优于现有的用于MDD诊断的机器学习和深度学习框架。考虑到LLMs在MDD诊断中探索有限，我们研究了可能影响我们提出的方法性能的众多因素，例如表格数据转换技术和不同的微调策略。此外，我们还分析了模型的可解释性，要求MDD-LLM解释其预测并提供相应的原因。本文研究了LLMs和大规模训练数据在诊断MDD中的应用。研究结果表明，与传统的基于模型的解决方案相比，LLMs驱动的方案在MDD诊断的准确性、鲁棒性和可解释性方面具有显著潜力。

1. 论文的研究目标

1.1 研究目标与实际问题

这篇论文的核心研究目标是开发并评估一个名为MDD-LLM的高性能、基于人工智能（AI）的重度抑郁症（Major Depressive Disorder, MDD）诊断工具框架。该框架利用了经过微调的大型语言模型（LLMs）和大规模的真实世界患者数据。

论文旨在解决以下关键实际问题：

MDD诊断的复杂性与挑战： MDD是全球性的重大公共卫生问题（影响超3亿人），但其诊断面临挑战。现有诊断方法（如PHQ-9, HDRS量表）依赖患者主动配合且易受外部因素影响。
医疗资源分布不均： 许多国家和地区由于医疗资源不足或分布不均，导致MDD的关注和诊断不足。
现有模型驱动方法的局限性：
- 传统的基于模型的诊断方法（如基于EEG、代谢组学、MRI的机器学习/深度学习）通常是数据驱动的，其效果严重依赖训练数据的数量和质量，而获取高质量、大规模的医学数据（尤其是罕见病）通常很困难。
- 这些模型往往难以有效利用已知的与MDD相关的生物和社会因素（如BMI、工作压力、收入、教育水平等先验知识）。
- 传统模型（如CNN, LSTM, XGBoost）在理解自然语言、处理复杂数据（如异常值、缺失值）以及模型可解释性方面通常不如LLMs。
LLMs在MDD诊断中的应用探索不足： 尽管LLMs在自然语言处理和某些医疗任务中展现出巨大潜力，但将其专门应用于MDD诊断，特别是利用大规模真实世界表格数据（tabular data）进行微调的研究还很有限。

"However, the uneven distribution of medical resources and the complexity of diagnostic methods have resulted in inadequate attention to this disorder in numerous countries and regions." "most model-based MDD diagnostic frameworks are data-driven, meaning their effectiveness heavily relies on the quantity and quality of the provided training data." "current model-based MDD diagnostic schemes struggle to utilize this prior knowledge effectively." "In contrast, traditional model-based solutions [24–26] such as CNN, LSTM, and XGBoost usually lack this capability [understanding context like LLMs]."

1.2 新问题与科学假设

将大型语言模型（LLMs）通过微调应用于基于大规模、真实世界、表格形式的个体健康信息进行MDD诊断，这是一个具有新意的研究方向。特别是如何有效地将表格数据转换为LLM能够理解和处理的格式是其中的关键问题。

论文的核心科学假设是：通过设计有效的表格数据转换方法，将大规模真实世界的个体健康记录（如UK Biobank）转化为适合LLM处理的文本语料，并对LLM进行微调，可以构建出在MDD诊断任务上，其准确性、鲁棒性（对缺失数据的处理能力）和可解释性均显著优于传统机器学习和深度学习方法的诊断模型（MDD-LLM）。

1.3 相关研究与归类

论文中涉及或对比的相关研究主要包括：

传统的MDD诊断方法： 基于量表（PHQ-9, HDRS）。
基于生物信号/数据的MDD诊断： 使用机器学习/深度学习处理EEG [7], 代谢组学网络 [8], MRI [9-12] 等。
研究MDD相关因素的流行病学研究： 如BMI [14], 工作压力 [15], 收入/职业/教育/婚姻状况 [16, 17] 与MDD的关系。
大型语言模型（LLMs）及其在医疗领域的应用： 医疗报告生成 [20], 健康诊断聊天机器人 [21], 临床AI代理 [22], LLM处理医疗数据的优势（如处理缺失值 [27], 可解释性）。
LLM微调技术： 参数高效微调（Parameter-Efficient Fine-Tuning, PEFT），特别是LoRA [31] 和 Q-LoRA [32]。还提到了Prefix Tuning [33] 和 Adapter Tuning [34]。
传统机器学习/深度学习分类模型： 如ResNet1D [29], MLP, XGBoost, Random Forest (RF), SVM，这些作为实验中的基线模型。

该研究属于人工智能（AI）、自然语言处理（NLP）、机器学习（ML）、医疗信息学（Medical Informatics）、精神健康信息学（Mental Health Informatics） 的交叉领域。

1.4 领域内值得关注的研究员

论文作者团队（来自澳门理工大学、沧州博途医院、华北理工大学等）是该领域的研究力量，特别是通讯作者Kefeng Li。此外，他们引用的关于LLM微调技术（LoRA, QLoRA等）以及将LLM应用于医疗任务（如[20-22, 41]）的研究者也值得关注。

2. 论文提出的新思路、方法或模型

2.1 新思路与关键

论文提出的核心新思路是利用LLM处理和分析大规模表格健康数据以进行MDD诊断。其关键在于：

表格数据到文本的转换： 由于LLMs主要处理文本，论文设计并比较了三种将UK Biobank中的表格数据转换为LLM指令提示（instruction prompts）的方法：
- 列表模板 (List Template): 简单的键值对罗列，如 "Age is 60, Sex is female, ...".
- 文本模板 (Text Template): 将特征嵌入到几个描述性的短句中，如 "Age is 60, sex is female, body mass index (BMI) is 24.5018 kg/m^2, sometimes sleeplessness, ..." (见论文Table 2下的例子)。
- GPT生成模板 (GPT Generation Template): 利用ChatGPT API将表格数据自动转换成一段自然语言描述。这个转换步骤是连接表格数据和LLM的关键桥梁。
基于LLM的诊断框架 (MDD-LLM): 构建了一个框架，该框架接收转换后的文本提示作为输入，通过微调LLM（如Llama 3.1系列）来进行MDD的二元分类（是/否）并输出预测概率。
利用大规模真实世界数据微调： 使用来自UK Biobank的超过27万人的大型真实世界数据集进行监督式微调（Supervised Fine-Tuning, SFT），这与许多依赖小型或合成数据集的研究不同。
强调可解释性： 利用LLM的对话能力，要求模型不仅给出预测结果，还要解释其预测的原因（见Fig 6）。

"However, current LLMs struggle to process tabular data directly. Therefore, it is necessary to convert the tabular information into instruction prompts that LLMs can understand. We propose three tabular data conversation methods..." "The LLM should understand the transformed prompt instruction and provide precise prediction results along with their corresponding probabilities." (Referring to the core task) "LLMs offer significant advantages in model accuracy, reasoning capabilities, and prior knowledge..."

2.2 MDD-LLM 系统架构 (Fig 1)

MDD-LLM的架构和流程可以概括为：

输入： 个体的表格化健康记录数据（来自UK Biobank）。
数据转换 (Fig 1a): 使用选定的转换方法（如Text Template）将每条表格记录转换成包含"instruction"和"input"的文本prompt。"instruction"通常是任务描述（例如，“预测病人是否有重度抑郁症？是或否？”），"input"是转换后的病人信息文本。
LLM处理 (Fig 1b):
- 分词与嵌入 (Tokenization & Embedding): MDD-LLM的tokenizer将输入的文本prompt转换成tokens，然后通过词嵌入层将其映射到向量空间。
- 核心LLM架构 (Core LLM Architecture): 嵌入后的tokens输入到LLM的核心部分（如Llama 3.1），经过自注意力（self-attention）和交叉注意力（cross-attention，如果是Encoder-Decoder架构，但Llama是Decoder-only）机制处理，提取特征并进行信息融合。
- 解码与预测 (Decoding & Prediction): LLM解码器生成预测结果。对于此任务，模型被设计为输出"Yes"或"No"，并提供相应的概率。概率反映了模型生成该类别对应token序列的可能性，经过归一化处理。
微调： 使用转换后的文本语料对预训练的LLM进行SFT，优化模型参数以适应MDD诊断任务。论文主要使用了LoRA和QLoRA进行参数高效微调。
输出： 最终输出MDD诊断预测（Yes/No）和对应的概率/风险评分。还可以通过进一步的prompting获取模型对预测的解释。

2.3 与之前方法的比较

相比传统ML/DL模型：
- MDD-LLM直接利用LLM处理转换后的文本信息，而传统模型通常直接处理数值化的表格特征。
- LLM具有更强的语义理解能力和一定的常识/先验知识。
- LLM在处理缺失值方面表现出更好的鲁棒性。
- LLM具有更好的可解释性潜力（通过自然语言解释）。
- 实验结果显示MDD-LLM在准确率和AUC上显著更优。
相比基于量表的诊断： MDD-LLM试图提供一种更客观、基于多维度数据的诊断方法，减少对患者主观报告的依赖。
相比其他基于生物信号的AI诊断： MDD-LLM利用的是更容易获取的队列研究数据（问卷、体检、生物标记等），而非专门采集的EEG/MRI等数据。

3. 论文的实验验证

3.1 实验设计

数据集： UK Biobank队列，包含274,348名参与者（12,715名MDD患者，261,633名对照）。MDD定义基于ICD-10 F32码和自报状况。
任务： 基于个体的多维度信息（见Table 1，包括年龄、BMI、生活习惯、社会经济状况、生物标记等）预测其是否患有MDD（二元分类）。
模型：
- 提出模型： MDD-LLM，基于Llama 3.1 8B和70B模型，使用LoRA/QLoRA微调。
- 基线模型： SVM, RF, LightGBM, XGBoost, CatBoost, MLP, ResNet1D。这些模型在相同的UK Biobank数据集上训练。
数据划分与训练： 80%训练集，20%测试集（按患者ID划分）。采用5折交叉验证验证性能。使用4块Nvidia H100 GPU训练。LoRA设置：rank=8, alpha=16。训练5个epoch。
评估指标： Accuracy (Acc), F1-score (F1), Specificity (SPE), Sensitivity (SNE), Positive Predictive Value (PPV), Negative Predictive Value (NPV), Area Under the Curve (AUC)。
关键实验：
1. 性能对比： MDD-LLM vs. 基线模型。
2. 微调方法对比： LoRA vs. QLoRA (在MDD-LLM 8B上)。
3. 数据转换方法对比： List Template vs. Text Template vs. GPT Generation Template (在MDD-LLM 8B上)。
4. 缺失数据鲁棒性测试： 随机移除20%, 40%, 60%, 80%的特征，比较MDD-LLM与XGBoost/MLP的性能下降情况。
5. 可解释性演示： 展示MDD-LLM生成预测及解释的对话示例。

3.2 实验数据与结果

性能对比 (Table 3, Fig 2):
- MDD-LLM 70B 取得了最佳性能：Acc=0.8378, F1=0.8184, AUC=0.8919 (95% CI: 0.8799 - 0.9040)。
- MDD-LLM 8B 次之：Acc=0.7904, F1=0.7627, AUC=0.8566。
- 两者均显著优于所有传统ML/DL基线模型（如ResNet1D AUC=0.7739, CatBoost AUC=0.7736）。相较于SVM，MDD-LLM 70B在Accuracy和F1上分别提升了23.57%和25.87%。
微调方法对比 (Table 4): 对于MDD-LLM 8B，LoRA（Acc 0.7904, F1 0.7627）性能略优于QLoRA（Acc 0.7883, F1 0.7624）。LoRA训练更快（40分钟 vs 55分钟），但需要更多GPU显存（245GB vs 172GB）。
数据转换方法对比 (Fig 4, Table S2): Text Template (AUC 0.8566) 和 GPT Generation Template (AUC 0.8624) 的性能显著优于List Template (AUC 0.8089)。Text Template和GPT Gen表现相似，考虑到成本和时间，推荐使用Text Template。
缺失数据鲁棒性 (Fig 5, Table S2): MDD-LLM表现出很强的鲁棒性。即使缺失60%的特征，其Accuracy和F1分数相比使用完整数据集时仅轻微下降（Acc下降9.24%, F1下降9.50%）。相比之下，XGBoost和MLP在相同情况下性能下降显著。
可解释性 (Fig 6): 展示了一个成功案例，MDD-LLM不仅给出了"Yes"的预测（概率93.65%），还能根据输入的文本信息（BMI高、睡眠差、慢性病、不开心、工作不满意、退休、低学历等）列出支持其判断的多个生物心理社会因素。

3.3 假设支持

实验结果非常有力地支持了核心假设。MDD-LLM在准确性上显著超越了传统的ML/DL方法，展现了对缺失数据的强大鲁棒性，并且具备生成可解释性文本的能力。同时，实验也验证了表格数据转换方法和微调技术选择对模型性能的影响。

4. 论文的贡献、影响和应用

4.1 论文贡献

首次将LLM应用于大规模真实表格数据的MDD诊断： 据作者所知，这是第一个在大型真实世界数据集（UK Biobank）上微调LLM用于MDD诊断的研究。
提出了有效的表格数据转换方法： 探索并比较了将结构化表格数据转换为LLM能理解的文本格式的不同策略（List/Text/GPT Gen Template），并给出了实用建议（推荐Text Template）。
验证了LLM在临床诊断中的优越性： 提供了强有力的证据，表明基于LLM的方法在MDD诊断任务上相比传统ML/DL模型具有显著的准确性、鲁棒性和可解释性优势。
为LLM在结构化医疗数据上的应用提供了范例： 展示了如何利用LLM处理和分析大规模的、表格形式的健康记录数据。

4.2 业界影响

推动AI在精神健康领域的应用： 为利用AI改进精神疾病（特别是MDD）的诊断提供了新的可能性和方向。
拓展LLM的应用场景： 表明LLM不仅能处理非结构化文本（如临床笔记），也能有效应用于结构化的表格数据（通过适当转换）。这对拥有大量表格EHR数据的医疗机构具有重要意义。
提升诊断工具性能： 可能催生更准确、更可靠、更易于理解的MDD辅助诊断工具。
促进对模型鲁棒性和可解释性的关注： 强调了LLM在这两方面的优势，可能引导研究更加关注这些特性。

4.3 潜在应用场景和商业机会

临床辅助诊断： 作为医生的助手，提供MDD风险评估和初步诊断建议。
大规模人群筛查： 用于公共卫生项目，对大规模人群进行MDD风险筛查。
个性化风险预测： 基于个体详细信息预测MDD风险，并可能解释关键风险因素。
远程医疗与数字健康： 集成到远程医疗平台或移动健康应用中，提供便捷的MDD评估。
商业机会： 开发基于MDD-LLM的商业化诊断软件/服务；提供针对特定医疗表格数据的LLM微调和解决方案；面向医疗机构的AI咨询服务。

4.4 工程师关注点

表格数据处理与转换： 如何设计有效的规则或模型将结构化数据转换为自然语言文本。
LLM微调技术： SFT流程，PEFT方法（LoRA, QLoRA）的原理、实现和选择（性能 vs 资源）。
Prompt Engineering： 如何设计有效的指令（instruction）来引导LLM完成特定任务（如分类、概率输出、解释）。
大规模数据处理： 处理和管理大型数据集（如UK Biobank规模）的技术。
模型评估与选择： 理解并应用各种分类任务评估指标（Acc, F1, AUC等）。
模型可解释性技术： 如何通过prompting或其他方法让LLM解释其决策过程。
部署与优化： 考虑模型大小（8B vs 70B）、推理速度、资源消耗等部署问题。
用户界面开发： （如图6所示）将模型集成到用户友好的界面中。

5. 值得进一步探索的问题和挑战

5.1 值得探索的问题和挑战 (论文在Sec 5提及)

评估不同的基础LLMs： Llama 3.1系列是通用模型，评估其他LLM（包括医疗专用LLM）的效果。
开发医疗任务定制化的微调技术： 探索更适合医疗诊断任务特点的微调策略。
LLM幻觉问题： LLM可能生成不准确或无依据的解释，需要研究如何检测和缓解幻觉。
数据多样性： 需要收集更多来自不同地区、不同医疗中心的数据进行验证和训练，以提高模型的泛化能力。
微调技术的适用性与验证： 对其他PEFT方法（如Prefix Tuning, Adapter Tuning）在MDD诊断任务上的有效性进行验证。
模型可解释性的深度： 目前的解释还相对表面化，需要更深入、更可靠的可解释性方法。
处理多模态数据： MDD诊断可能受益于结合文本、语音、面部表情等多模态信息，未来可以探索多模态LLM的应用。

5.2 新技术和投资机会

医疗专用LLMs的研发与微调： 开发或微调专门针对医疗领域（包括理解表格数据和临床术语）的LLM。
自动化表格数据转换工具： 开发更智能、更自适应的工具，将各种类型的表格数据高效转换为高质量的LLM输入。
可信赖与可解释AI医疗平台： 投资于提高LLM在医疗应用中可靠性、鲁棒性、公平性和可解释性的技术和平台。
多中心数据协作平台： 建立符合隐私法规的多中心数据共享和联邦学习平台，以训练更泛化的模型。
抗幻觉技术： 研发用于检测和减轻LLM幻觉的技术，尤其是在高风险的医疗场景。

6. 论文存在的不足及缺失

6.1 不足之处

数据来源单一： 仅使用了UK Biobank数据。虽然规模大，但其参与者主要是英国白人中年人群，存在选择偏倚，研究结论能否推广到其他年龄、种族、社会文化背景的人群需要打个问号。
MDD标签的准确性： 依赖ICD-10码和自报信息定义MDD，可能存在一定的诊断不准确或异质性。
表格数据转换的探索不够深入： 虽然比较了三种方法，但对于Text Template和GPT Generation Template为何优于List Template的机制探讨不够深入。Text Template的构建似乎仍需要人工设计规则。
可解释性评估的局限性： 仅通过一个示例（Fig 6）展示了可解释性，缺乏系统性的评估（例如，由临床医生评估解释的准确性和有用性）。LLM生成的解释可能听起来合理但并非真正基于正确的推理。
忽略了时间维度： UK Biobank是纵向队列，但论文似乎主要将其用作横断面数据进行分类，没有充分利用时间序列信息来预测MDD的发生或复发。
缺乏与基于临床笔记的LLM模型对比： MDD诊断通常也依赖于临床访谈和记录，与基于这些非结构化文本训练的LLM模型进行对比会更有意义。

6.2 需要进一步验证和存疑之处

性能提升的真实临床意义： AUC从0.77提升到0.89在统计上显著，但在实际临床应用中，这种提升带来的具体效益（如减少误诊率、改善患者管理）有多大？
鲁棒性测试的设置： 随机移除特征的测试方式是否能完全模拟真实世界中数据缺失的模式？真实世界的缺失可能不是随机的。
Text Template的可扩展性： 对于特征数量更多、类型更复杂的表格数据，Text Template的设计和维护成本是否会显著增加？
LLM的“黑箱”问题是否真正解决： 虽然可以生成解释，但这个解释本身是否可靠？LLM是否可能为了迎合解释任务而“编造”看似合理的理由？其内部决策过程仍然不透明。
成本效益分析： 训练和运行大型LLM（特别是70B模型）的成本远高于传统模型，其性能优势是否足以证明高成本的合理性？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.