Digital Health Insider: 知识型语言模型作为个性化医疗的黑盒优化器

论文信息

标题 (Title)：KNOWLEDGEABLE LANGUAGE MODELS AS BLACK-BOX OPTIMIZERS FOR PERSONALIZED MEDICINE
作者 (Authors)：Michael S Yao, Osbert Bastani, Alma Andersson, Tommaso Biancalani, Aïcha Bentaieb, Claudia Iriondo
发表年份 (Year)：2025
原文链接 (URL)：https://arxiv.org/abs/2509.20975v1

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：个性化医疗旨在根据患者的个人因素优化治疗方案。这一过程可通过评估疗效的“代理模型”（surrogate model）来辅助，但这些模型在面对未见过的患者-治疗组合时泛化能力不足。研究旨在利用大型语言模型（LLM）结合领域先验知识，作为一种无需微调的黑盒优化器，来解决这一挑战。
方法 (Methods)：研究提出了一种名为 LEON (LLM-based Entropy-guided Optimization with knowledgeable priors) 的方法。该方法通过“提示即优化”（optimization by prompting）的方式，利用 LLM 提出个性化治疗方案。LEON 在数学上构建了一个受约束的优化问题，该问题同时考虑了代理模型的预测可靠性（通过对抗性源鉴别器模型）和 LLM 自身输出的确定性（通过熵指导）。
结果 (Results)：在 5 个真实的个性化医疗优化任务中，LEON 的平均排名为 1.2，其性能优于包括传统优化方法和其他基于 LLM 的方法在内的 10 种基线方法。
结论 (Conclusion)：LEON 成功地将领域知识与 LLM 优化器相结合，解决了在分布偏移（distribution shift）下的个性化医疗黑盒优化问题。研究证明，无需任何微调，消费级 LLM 也能有效解决具挑战性的个性化医疗优化问题。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

研究背景：个性化医疗可以被看作一个条件优化问题：即在给定患者独特特征的条件下，设计一个能最大化其临床疗效的治疗方案。直接在患者身上测试新疗法是不可行的，因此通常依赖于代理模型（如机器学习模型或数字孪生）来评估治疗方案的质量。然而，这些代理模型由于临床试验中特定人群的代表性不足，在面对分布外（out-of-distribution）的患者时，预测的准确性会大幅下降，从而导致优化失败。
核心研究问题 (RQs)：在无法直接评估真实疗效且代理模型不可靠的情况下，能否利用大型语言模型（LLM）整合领域先验知识（如医学教科书、生物医学知识图谱）的能力，来克服代理模型泛化能力不足的缺陷，并提出更优的个性化治疗方案？
问题的新颖性：虽然已有研究探索 LLM 在黑盒优化中的应用，但这些应用场景的目标函数评估成本低廉（如代码解释器），与临床医疗中评估成本高昂且不可靠的情况截然不同。本文首次将 LLM 作为无需微调的黑盒优化器应用于解决个性化医疗中因分布偏移导致的代理模型失效问题。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究总结：
- LLM 作为优化器：近期研究已探索 LLM 在解决数学、计算机科学等领域的零样本优化问题，但这些任务的目标函数通常易于评估。在生物医学领域，一些工作通过微调语言模型来进行分子设计，但这依赖于可扩展的实验或精确的模拟。
- 分布偏移下的优化：传统（非 LLM）的优化方法尝试通过对代理模型施加平滑先验或使用基于检索的方法来应对分布偏移，但这些方法通常假设可以控制代理模型的设计，这在黑盒优化场景下不成立。
研究缺口 (Gap)：现有 LLM 优化方法未解决在目标函数评估昂贵且代理模型不可靠的场景下的优化问题，尤其是在需要根据个体特征进行“条件优化”的个性化医疗领域。同时，传统的分布偏移优化方法又不适用于纯黑盒的场景。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：
1. 将个性化医疗形式化为一个受约束的条件黑盒优化问题。
2. 推导出一个计算上可行的解决方案，即 LEON 框架。
3. 验证 LEON 在真实世界个性化医疗任务中的有效性。
核心假设：通过整合领域特定的先验知识，并对优化过程施加合理的约束（即限制在代理模型预测可靠且 LLM 自身高度确信的区域内进行搜索），基于 LLM 的优化器可以克服代理模型在分布外失效的局限性。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

研究范式：本研究为定量研究。
方法论：研究提出了一种名为 LEON 的数学优化框架，并通过“提示即优化”的方式实现。它将个性化医疗重新表述为一个受约束的优化问题，并推导出了其解析解，然后通过算法步骤迭代求解。
解决方案关键：
1. 约束优化问题的构建：在传统的最大化代理模型预测收益的目标上，增加了两个关键约束：
  - 分布约束：利用一个对抗性训练的“源鉴别器模型” $c^{*} (x)$ ，确保 LLM 提出的治疗方案分布与已有的真实世界治疗方案分布不过于偏离（通过限制两者间的 1-Wasserstein 距离）。这旨在将优化限制在代理模型预测更可靠的“分布内”区域。
  - 熵约束：限制 LLM 输出的治疗方案分布的熵，鼓励模型提出更加一致和确定的方案。低熵意味着 LLM 根据其掌握的先验知识，对提出的方案更有“信心” 。
2. 求解与算法实现：
  - 通过拉格朗日乘子法，推导出该约束优化问题的最优解形式，该解依赖于两个动态调整的“确定性参数” $λ$ 和 $μ$ 。
  - $μ$ (LLM 确定性)：通过对 LLM 在一次提议中生成的多个方案进行聚类（划分等价类），并对各类别的频率进行线性回归来凭经验估计。
  - $λ$ (源鉴别器确定性)：通过对偶函数的梯度下降法进行迭代更新，动态平衡探索（exploration）和利用（exploitation）。
与之前方法的特点和优势：
- 无需微调：LEON 可与任何通用的 LLM 结合使用，无需针对特定任务进行模型微调。
- 数学原理支撑：该方法不是启发式的，而是基于对约束优化问题的严格数学推导，具有坚实的理论基础。
- 兼顾两种不确定性：同时解决了代理模型在分布外的不确定性（通过 $λ$ 和源鉴别器）和 LLM 自身推理的不确定性（通过 $μ$ 和熵），这是其核心创新。

2.2. 数据来源与样本 (Data Source & Sample)

数据来源：研究构建了 5 个真实的个性化医疗优化任务，数据来源于公开数据集和合作方：
1. Warfarin：使用公开数据集，根据患者的临床和药物遗传学变量，优化华法林（一种抗凝药）的剂量。
2. HIV：使用公开的 HIVDB 数据集，根据患者的病毒基因突变情况，优化抗逆转录病毒药物组合。
3. Breast & Lung Cancer：使用 Flatiron Health 的合作数据，为乳腺癌和非小细胞肺癌患者设计最佳治疗策略。
4. ADR (Adverse Drug Reaction)：使用内部专有数据集，预测患者对某专有药物产生不良反应的风险。
样本：每个任务都包含源数据集（用于训练代理模型）和目标数据集（用于评估，代表分布外患者）。研究从每个任务的目标数据集中随机抽取 100 名独立患者进行实验结果报告。

2.3. 操作化与测量 (Operationalization & Measurement)

先验知识生成：在优化开始前，LLM 被赋予一套外部知识工具，包括医学教科书、生物医学知识图谱（HetioNet, PrimeKG）、MedGemma 27B 模型、以及多个癌症和药物相关的数据库（Cellosaurus, COSMIC, GDSC, DepMap）。LLM 通过工具调用自主合成一段针对具体患者和任务的自然语言“先验知识陈述”，并将其用于后续所有优化步骤。
测量：
- 每个优化方法在给定一个患者的情况下，有 2048 次调用代理模型的预算。
- 预算耗尽后，方法需提出一个最终的最佳治疗方案。
- 该方案的性能由隐藏的“真实目标函数”（ground-truth objective）评估，报告其得分。真实目标函数在优化过程中对所有方法都不可见。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

LEON 性能卓越：LEON 在所有五个任务中持续优于所有基线方法，平均排名达到 1.2 。
超越人类基线：在多个任务中，LEON 提出的个性化治疗方案优于患者在回顾性数据中实际接受的治疗（Human baseline）。
任务表现：LEON 在华法林剂量预测、HIV 治疗、乳腺癌和肺癌治疗设计上均取得了最佳性能。
知识依赖性：消融实验表明，LEON 对高质量领域知识的可用性很敏感，使用所有专家知识源时效果最好，而提供不相关或错误的知识则会损害其性能。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

表 1：分布偏移下患者条件化设计的质量
- 展示内容：该表格报告了 LEON 和 10 种基线方法在 5 个任务上最终提出的治疗方案的真实目标函数得分（均值±标准差）。得分旁边标注了优化目标（↑表示最大化，↓表示最小化）。
- 揭示关系：LEON 在“Warfarin”、“HIV”、“Breast”、“Lung”四个任务上均取得了最佳分数（粗体单元格），并且在“ADR”任务上取得了次优分数（下划线单元格）。其最终的平均排名（Rank）为 1.2，远优于其他方法（排名 3.4 及以上）。这有力地证明了 LEON 在解决此类问题上的优越性。
图 S5：LLM 用于先验知识综合的知识源调用分布
- 展示内容：该图展示了在 5 个不同任务中，LLM 在生成先验知识时查询各个外部知识库的频率。
- 揭示关系：图表显示 LLM 会根据任务的不同，有侧重地查询不同的知识源。例如，在处理癌症相关的“Breast”和“Lung”任务时，它会优先查询 COSMIC（癌症突变数据库）。这表明 LLM 能够智能地选择和利用最相关的专家知识来辅助优化。
表 S4 & 表 S5：确定性参数和先验知识的消融研究
- 展示内容：表 S4 评估了动态计算确定性参数 $λ$ 和 $μ$ 的重要性。表 S5 评估了不同质量的先验知识对 LEON 性能的影响。
- 揭示关系：表 S4 显示，同时动态计算 $λ$ 和 $μ$ （Dyn., Dyn.）时性能最佳，这验证了框架中两个约束条件的必要性。表 S5 显示，使用所有专家知识源（All Sources）时性能最好，而使用无关知识（arXiv Abstracts）或对抗性错误知识（Adversarial）则会导致性能显著下降。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

LEON 的成功可归因于其巧妙地将优化搜索空间限制在两个“安全区域”的交集内：一是代理模型预测可靠的区域（由源鉴别器保证），二是基于领域知识 LLM 自身高度确信的区域（由熵约束保证）。
这一框架使得消费级 LLM 能够在没有任何模型权重更新的情况下，通过上下文学习和与外部知识的交互，表现出强大的专业领域优化能力。

4.2. 理论贡献 (Theoretical Contributions)

提出了新的优化框架：为在分布偏移下的条件黑盒优化问题提供了一个有数学原理支撑的、基于 LLM 的新颖解决方案。
扩展了 LLM 的应用范式：展示了如何利用 LLM 的上下文理解和工具使用能力，将其转变为一个无需微调的、能整合外部知识的随机优化引擎。
对业界的潜在影响：为制药、生物技术和临床医学等领域提供了一种新的计算工具，用于在数据有限且模型不完美的情况下，设计个性化的干预措施，有望加速药物研发和精准医疗的进程。

4.3. 实践启示 (Practical Implications)

临床决策支持：虽然 LEON 目前不用于直接临床决策，但它代表了未来辅助系统的一种方法论贡献，这些系统可以帮助临床医生在复杂情况下做出更优的治疗决策。
药物研发：该方法可以应用于药物发现的其他领域，例如在早期临床试验中优化剂量方案或选择最有可能受益的患者亚群。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：
1. 对知识质量敏感：LEON 的性能依赖于高质量的先验知识，错误或过时的信息可能对结果产生负面影响。
2. 模拟环境的局限性：尽管任务基于真实数据，但仍无法完全捕捉临床实践中患者反应的复杂性和异质性。
3. LLM 固有的偏见：LLM 在预训练过程中可能学到社会和人口统计学偏见，这可能导致其提出不公平或不安全的治疗建议。
未来研究：
1. 主动学习与前瞻性评估：将 LEON 扩展到主动学习场景和前瞻性的临床评估中。
2. 人机协同：探索如何将医生整合到优化循环中，以减轻自主 LLM 系统的风险。
3. 多模态数据整合：将 LEON 扩展到可以处理多模态患者数据（如医学影像、基因序列）的场景。

5. 结论 (Conclusion)

本研究提出了 LEON，一种新颖的、有数学原理支撑的方法，用于将知识型大型语言模型作为黑盒优化器来解决个性化医疗问题。通过对优化问题施加两个直观的约束——即要求方案在分布内且 LLM 对其有高确定性——LEON 能够有效利用消费级 LLM，在无需任何微调的情况下，解决一系列具有挑战性的个性化医疗优化任务，其性能优于传统的和基于 LLM 的优化方法。

6. 核心参考文献 (Core References)

Yang, C. et al. (2024a). Large language models as optimizers. In Proc ICLR.
- 理由：该文献提出了“提示即优化”（OPRO）的概念，是本文实现 LEON 和进行基线比较的核心方法之一。
The International Warfarin Pharmacogenetics Consortium. (2009). Estimation of the warfarin dose with clinical and pharmacogenetic data. New Eng J Med, 360(8):753-64.
- 理由：该文献提供了“Warfarin”任务的公开数据集和背景，是本文进行真实世界任务验证的基础。
Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein generative adversarial networks. In Proc ICML, volume 70, pp. 214-23.
- 理由：该文献是 Wasserstein GAN 的经典之作，为本文中使用对抗性源鉴别器和 1-Wasserstein 距离来约束优化提供了理论和方法论基础。
Trabucco, B. et al. (2021). Conservative objective models for effective offline model-based optimization. In Proc ICML, volume 139, pp. 10358-68.
- 理由：代表了在分布偏移下进行传统（非 LLM）黑盒优化的先进方法，是本文论述其研究缺口和问题背景时的重要参考。